CN114202723A

CN114202723A - 一种通过画面识别的智能剪辑应用方法、装置、设备及介质

Info

Publication number: CN114202723A
Application number: CN202111461246.5A
Authority: CN
Inventors: 赵郑; 段小霞; 时梅; 于言言
Original assignee: Beijing Zeqiao Medical Technology Co ltd
Current assignee: Beijing Zeqiao Medical Technology Co ltd
Priority date: 2021-12-02
Filing date: 2021-12-02
Publication date: 2022-03-18

Abstract

本发明涉及一种通过画面识别的智能剪辑应用方法，包括获取待剪辑的医学影像视频数据；对所述待剪辑的医学影像视频数据进行分组图像识别，得到关键帧索引；基于所述关键帧索引对所述待剪辑的医学影像视频数据进行剪辑。本发明无需具有医学知识的剪辑人员进行剪辑，且再需要剪辑人员看完整个视频的内容或重复观看多次视频就能完成视频剪辑操作，提升了视频剪辑的效率。本发明还涉及一种通过画面识别的智能剪辑应用装置、一种存储介质和设备。

Description

一种通过画面识别的智能剪辑应用方法、装置、设备及介质

技术领域

本发明涉及视频处理技术领域，尤其涉及一种通过画面识别的智能剪辑应用方法、装置、设备及介质。

背景技术

视频剪辑技术是一种将待剪辑对象如静态图像、动态视频等通过剪辑的方式合成一段剪辑视频的视频处理方式，常应用于短视频制作、视频集锦等视频剪辑场景。

传统的视频剪辑技术需要剪辑人员看完整个视频的内容，然后使用手动剪辑的方式将所需的视频片段剪辑出来。这种视频剪辑的方式需要耗费视频剪辑人员大量的精力和时间，效率低下，尤其当需要剪辑的视频是医学影像视频时。而医学影像视频因为其无字幕和语音、对话等信息，更需要具有医学知识的剪辑人员熟悉视频内容后才能进行合理的剪辑，降低了视频剪辑的效率。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供一种通过画面识别的智能剪辑应用方法、装置、设备及介质。

本发明解决上述技术问题的技术方案如下：

一种通过画面识别的智能剪辑应用方法，包括，

获取待剪辑的医学影像视频数据；

对所述待剪辑的医学影像视频数据进行分组图像识别，得到关键帧索引；

基于所述关键帧索引对所述待剪辑的医学影像视频数据进行剪辑。

本方法发明的有益效果是：提出了一种通过画面识别的智能剪辑应用方法，包括获取待剪辑的医学影像视频数据；对所述待剪辑的医学影像视频数据进行分组图像识别，得到关键帧索引；基于所述关键帧索引对所述待剪辑的医学影像视频数据进行剪辑。本发明无需具有医学知识的剪辑人员进行剪辑，且再需要剪辑人员看完整个视频的内容或重复观看多次视频就能完成视频剪辑操作，提升了视频剪辑的效率。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步地，所述对所述待剪辑的医学影像视频数据进行分组图像识别，得到关键帧索引，具体包括：

利用k近邻平均法消除所述医学影像视频数据中的随机噪声；

通过直方图均衡和对数变换对所述医学影像视频数据进行图像增强处理；

将所述医学影像视频数据切分为与基于预设扫描器官类别对应的片段；

抽取每一个所述片段中的多个视频帧，获取所述视频帧的视频属性参数，并基于所述视频属性参数得到所述片段中的关键视频帧；

基于所述关键视频帧和所述待剪辑的医学影像视频数据的时间轴索引，建立所述关键帧索引。

进一步地，所述抽取每一个所述片段中的多个视频帧，获取所述视频帧的视频属性参数，并基于所述视频属性参数得到所述片段中的关键视频帧，具体包括：

将所述视频帧进行骨骼剥离和线性配准处理后，计算所述片段中的第一视频帧中的预设位置像素点的像素值；

根据所述第一视频帧中的预设位置像素点的像素值和标准图像中的预设位置像素点的像素值，得到所述第一视频帧的分数；

将所述第一视频帧作为当前视频帧；

计算所述片段中的所述当前视频帧的下一帧视频帧和所述当前视频帧的图像相似度值，并将所述图像相似度值与预设相似度阈值进行比较后，将所述第一视频帧作为当前视频帧，直至遍历完所述片段中抽取的每一帧视频帧；

当所述图像相似度值大于所述预设相似度阈值时，根据所述当前视频帧的下一帧视频帧中的预设位置像素点的像素值和标准图像中的预设位置像素点的像素值，得到所述当前视频帧的下一帧视频帧的分数；

当所述当前视频帧的下一帧视频帧的分数高于所述当前视频帧时，将所述当前视频帧的下一帧视频帧作为所述关键视频帧；

否则，所述当前视频帧作为所述关键视频帧；

当所述图像相似度值小于所述预设相似度阈值时，根据所述所述当前视频帧的下一帧视频帧的预设位置像素点的像素值和标准图像中的预设位置像素点的像素值，得到所述当前视频帧的分数，并将所述当前视频帧作为所述片段中的第二关键视频帧。

进一步地，所述基于所述关键视频帧和所述待剪辑的医学影像视频数据的时间轴索引，建立所述关键帧索引，具体包括：

将所述关键视频帧按照时间顺序展示在所述待剪辑的医学影像视频数据的时间轴索引上，得到所述关键帧索引。

进一步地，所述基于所述关键帧索引对所述待剪辑的医学影像视频数据进行剪辑，具体包括，

根据所述关键帧索引分别确定视频剪辑的起始位置和结束位置；

根据视频剪辑的起始位置和结束位置完成所述待剪辑的医学影像视频数据的视频剪辑，并将所述关键帧索引作为标签插入至完成剪辑的医学影像视频数据中。

本发明解决上述技术问题的另一技术方案如下：

一种通过画面识别的智能剪辑应用装置，包括，

采集模块，用于获取待剪辑的医学影像视频数据；

识别模块，用于对所述待剪辑的医学影像视频数据进行分组图像识别，得到关键帧索引；

剪辑模块，用于基于所述关键帧索引对所述待剪辑的医学影像视频数据进行剪辑。

此外，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述技术方案中任一项所述的一种通过画面识别的智能剪辑应用方法的步骤。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述技术方案中任一项所述的一种通过画面识别的智能剪辑应用方法的步骤。

本发明附加的方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种通过画面识别的智能剪辑应用方法的流程示意图；

图2为本发明的一种通过画面识别的智能剪辑应用装置的模块示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

如图1所述，本发明实施例所述的一种通过画面识别的智能剪辑应用方法，包括以下步骤：

110、获取待剪辑的医学影像视频数据。

应理解，医学影像视频数据包括各类检查获得的影像视频如CT、PET等，以及手术过程中的影像视频。

120、对所述待剪辑的医学影像视频数据进行分组图像识别，得到关键帧索引。

应理解，将医学影像视频数据进行分组的方法很多，可以按照时间或是探查的组织部位等。

130、基于所述关键帧索引对所述待剪辑的医学影像视频数据进行剪辑。

应理解，视频剪辑方法涉及人工智能技术领域，通过人工智能技术实现对待剪辑视频进行剪辑。本申请实施例中，可以通过人工智能技术中的计算机视觉技术实现。其中，计算机视觉技术(CV，ComputerVision)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本实施例中因为医学影像视频的特殊性，视频剪辑方案里面只考虑了视觉信息，而画面识别的准确性更影像了医学影像视频的剪辑效果。

进一步地，步骤120中具体包括：

利用k近邻平均法消除所述医学影像视频数据中的随机噪声。

通过直方图均衡和对数变换对医学影像视频数据进行图像增强处理。

将所述医学影像视频数据切分为与基于预设扫描器官类别对应的片段。

抽取每一个所述片段中的多个视频帧，获取所述视频帧的视频属性参数，并基于所述视频属性参数得到所述片段中的关键视频帧。

进一步地，步骤120中所述抽取每一个所述片段中的多个视频帧，获取所述视频帧的视频属性参数，并基于所述视频属性参数得到所述片段中的关键视频帧，具体包括：

将所述第一视频帧作为当前视频帧；

否则，所述当前视频帧作为所述关键视频帧；

应理解，本申请中觉信息包括但不限于医学影像视频中的视频帧的清晰度、饱和度、色彩丰富度、亮度等信息。

而分数是指针对于医学影像视频中的每一视频帧进行医学价值评价后所得到的分值。

应理解，可以针对于待剪辑视频中一类视频属性参数，对视频帧进行评分，也可以针对多个视频属性参数对视频帧进行评分。

应理解，评分较高的视频帧具体比较好的医学参考及学习价值，因此将评分较高的视频帧作为关键帧。

根据关键帧插入至所对应的视频中的时间轴的位置得到关键帧索引。

进一步地，步骤130中具体包括，

根据所述关键帧索引分别确定视频剪辑的起始位置和结束位置。

应理解，本发明实施例根据视频播放时间轴的索引对待剪辑的视频数据进行剪辑，通过图像识别结果生成的视频播放时间轴的索引来辅助视频剪辑，不再需要剪辑人员看完整个视频的内容或重复观看多次视频就能完成视频剪辑操作，提升了视频剪辑的效率。

关键帧索引还与视频数据的视频帧建立了对应关系，可以直接定位出对应的视频帧方便剪辑，省去了剪辑人员的动操作，不仅提升了视频剪辑的效率，而且提升了剪辑人员的操作体验，更加便捷。

进一步地，基于上述实施例，也可以将视频帧以及视频帧的视频属性参数输入至已训练神经网络中，得到视频帧的分数，具体包括：

将所述视频帧输入至已训练神经网络中进行特征提取，得到所述视频帧的特征向量；

所述视频帧的视频属性参数向量化，得到视频属性参数向量；

求取所述视频属性参数向量和所述视频帧的特征向量的插值范数，经过全连接层取sigmoid函数，得出所述视频帧的分数。

应理解，卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络，被广泛地应用于图像识别、语音识别、自然语言识别等各个领域。

在卷积神经网络应用中，神经网络处理器由于具有更快的处理速度，因此成为应用中的首选，特别是在一些对实时性要求较高的应用场景中，更倾向于采用神经网络处理器来实现卷积神经网络。3D卷积神经网络特指多维度(维度大于2)神经网络，相比传统的二维神经网络，多维度神经网络会在二维神经网络基础上，再加入一个或多个维度，比如在视频处理中引入时间维度，输入多帧视频数据进行卷积。

C3D(Convolutional 3D)模型在传统的二维卷积神经网路的空间域的基础上，增加了一个时间的维度，能够更好的提取行为的时间特征，而且相对双流法等有较快的速度。虽然用C3D卷积进行特征提取可以同时考虑到空间和时间维度的特征，但是计算成本和模型存储还是太大，所以P3D(Pseudo-3D ResNet)网络对三维卷积进行了改造，将一个t×m×n的卷积核分为时间域上的t×1×1的卷积核和空间域上的1×m×n的卷积核，可以减少计算量和储存量，这样就允许在更大的基础网络模型上训练三维神经网络。

P3D卷积神经网络是一种被广泛应用的三维卷积神经网络模型。在P3D卷积神经网络中的卷积层，包括两类卷积核，第一类卷积核中的第一卷积核支持宽度和高度两个维度，第二类卷积核中的第二卷积核支持时间维度。

本实施例中可以采用上述任何一个卷积神经网络，或未介绍的卷积神经网络，本申请对此不做限制。而卷积神经网络的训练方法目前也是非常成熟。

基于上述实施例所提出的一种通过画面识别的智能剪辑应用方法，包括获取待剪辑的医学影像视频数据；对所述待剪辑的医学影像视频数据进行分组图像识别，得到关键帧索引；基于所述关键帧索引对所述待剪辑的医学影像视频数据进行剪辑。本发明无需具有医学知识的剪辑人员进行剪辑，且再需要剪辑人员看完整个视频的内容或重复观看多次视频就能完成视频剪辑操作，提升了视频剪辑的效率。

如图2所示，一种通过画面识别的智能剪辑应用装置，包括，

采集模块，用于获取待剪辑的医学影像视频数据；

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种通过画面识别的智能剪辑应用方法，其特征在于，包括，

获取待剪辑的医学影像视频数据；

2.根据权利要求1所述的通过画面识别的智能剪辑应用方法，其特征在于，所述对所述待剪辑的医学影像视频数据进行分组图像识别，得到关键帧索引，具体包括：

利用k近邻平均法消除所述医学影像视频数据中的随机噪声；

3.根据权利要求2所述的通过画面识别的智能剪辑应用方法，其特征在于，所述抽取每一个所述片段中的多个视频帧，获取所述视频帧的视频属性参数，并基于所述视频属性参数得到所述片段中的关键视频帧，具体包括：

将所述第一视频帧作为当前视频帧；

否则，所述当前视频帧作为所述关键视频帧；

4.根据权利要求2所述的通过画面识别的智能剪辑应用方法，其特征在于，所述基于所述关键视频帧和所述待剪辑的医学影像视频数据的时间轴索引，建立所述关键帧索引，具体包括：

5.根据权利要求1所述的通过画面识别的智能剪辑应用方法，其特征在于，所述基于所述关键帧索引对所述待剪辑的医学影像视频数据进行剪辑，具体包括，

6.一种通过画面识别的智能剪辑应用装置，其特征在于，包括，

采集模块，用于获取待剪辑的医学影像视频数据；

7.根据权利要求6所述的通过画面识别的智能剪辑应用装置，其特征在于，所述识别模块，具体用于：利用k近邻平均法消除所述医学影像视频数据中的随机噪声；

8.根据权利要求7所述的通过画面识别的智能剪辑应用装置，其特征在于，所述识别模块，具体用于将所述视频帧进行骨骼剥离和线性配准处理后，计算所述片段中的第一视频帧中的预设位置像素点的像素值；

将所述第一视频帧作为当前视频帧；

否则，所述当前视频帧作为所述关键视频帧；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-5中任一项所述的一种通过画面识别的智能剪辑应用方法的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5中任一项所述的一种通过画面识别的智能剪辑应用方法的步骤。