CN117633297A

CN117633297A - 基于注释的视频检索方法、装置、系统及介质

Info

Publication number: CN117633297A
Application number: CN202410112318.2A
Authority: CN
Inventors: 汉京宁
Original assignee: Jiangsu Ruining Xinchuang Technology Co ltd
Current assignee: Jiangsu Ruining Xinchuang Technology Co ltd
Priority date: 2024-01-26
Filing date: 2024-01-26
Publication date: 2024-03-01
Anticipated expiration: 2044-01-26
Also published as: CN117633297B

Abstract

本发明涉及一种基于注释的视频检索方法、装置、系统及介质，属于视频数据检索的技术领域，该发明的方法包括：在存储器中设置一个索引表文件，该文件中的每条记录包括镜头指针、字符文本和指令编码的数据项；对应于网络终端机输入设备的每次动作，触发采集由网络服务器转发并源自网络终端机中屏幕显示的视频流及输入设备的字符输入和指令操作；将上述采集的数据保存于索引表文件中每条记录的对应数据项；基于索引表文件中所保存的注释信息，根据关键字检索出符合检索条件的所有视频片段，或返回检索失败的信息。本发明适用于堡垒机运维审计等网络安全管理技术领域中的视频检索，尤其是在视频数据海量情形下快速实现视频片段检索的应用场景。

Description

基于注释的视频检索方法、装置、系统及介质

技术领域

本发明涉及一种基于注释的视频检索方法、装置、系统及介质，属于信息处理和信息检索尤其是视频信息处理和视频信息检索的技术领域。

背景技术

视频检索就是要从大量的视频数据中找到用户所需的视频片断，普遍用于事件监控，以作为司法、安检、审计等相关社会领域中对行为人某种特定行为的认定证据。根据记录事件发生的录像视频，全程翻看视频显然是一种低效率做法。传统的视频检索方法，通常是在视频的播放过程中以快进或快退等方式顺序地进行人工查找，操作起来比较烦琐，这不仅消耗较大的人力而且容易漏掉真正所需的视频片段，通常无法满足大容量视频数据库的检索要求。实际中，人们往往非常渴望一种基于内容的视频检索方法，即在整个视频文件中能够基于视频帧或片段的内容特征进行检索，但作为检索条件，这种内容特征所面临的人类语言表达，往往又会因涉及自然语言处理（NLP）过程而使得问题解决方案变得较为复杂。

在基于内容的视频检索中，所属技术领域的技术人员很容易想到的一种技术方案是，将整个视频切分为若干视频片段并对每个视频片段赋予一定的文字内容特征，并基于这些文字内容特征进行相适应的关键字检索。这种基于内容的视频检索方法相对于传统人工方式的视频查找，效率必然会有提升，但仍存在一些问题：第一，它通常不能解决对整个视频的片段化切分甚至是自动化地片段化切分的问题，毕竟视频片段才是相对独立的视频检索单元；第二，在将视频分割成若干视频片段后，就要对每个视频片段进行特征提取，以便建立针对每个视频片段的索引数据，例如提取镜头的颜色、纹理、运动甚至高级语义等特征，以形成描述视频片段的特征空间，但问题的难点在于，这里所提取的特征并非为用户所能简单描述并将之作为检索条件的参数输入进行视频检索的；第三，基于内容的视频检索通常仅是一种近似匹配，往往需要一个逐步求精的循环过程，并经历一种相似匹配结果返回、特征调整等的步骤，直至获得用户最终满意的检索结果，正是由于在基于内容的视频检索中采用相似性度量的近似匹配方式，也尽管可以基于关键特征、动态特征或是二者相结合地查询，还尽管这一查询过程可以通过人机交互的迭代、以系统可接受的反馈重新搜索期望最终能得到更加满意的检索结果，但基于特征匹配的视频检索的主要缺陷还在于视频片段不能自动切分的问题，这导致不利于视频检索单元的定位、视频特征缺乏语义信息，最终让用户在表述视频数据的检索条件时感到不便；第四，在视频结构的分析中，通过镜头边界检测等常规手段，对构成整个视频的若干连续镜头分割完毕后，倘若再对每一镜头的视频内容，以人工方式添加注释信息，自然可以弥补前述中基于特征匹配的视频检索中视频特征缺乏语义信息的缺陷，但这无疑又会增加人力成本。总之，目前导致视频检索不便的原因往往在于，视频片段缺乏自动切分机制以及每个视频片段中缺乏特征描述的语义信息，如何以一种简便有效的方式自动切分视频片段并针对每个视频片段自动添加便于描述和检索的语义信息以方便用户对视频的检索操作，构成了本发明的任务。

发明内容

本发明所要解决的技术问题是，在基于特征匹配的视频检索中，如何将时域较大的视频自动切分为内容相对独立的若干视频片段，并自动赋予其相关联的语义信息，然后以较为简便的方法实现对特定视频片段的快速定位，尤其是在针对网络终端机显示屏视频流采集时，如何克服视频特征中缺乏相关语义信息的缺陷，并以较为通用的关键字检索方式实现视频检索过程，其目的是，在视频检索的技术领域中提供一种较为满意的问题解决方案，以进一步地将其应用于司法、安检、审计等相关行业。

为了解决上述提出的技术问题，本发明提供了一种基于注释的视频检索方法、装置、系统及介质，并采取如下技术方案：

第一方面，本发明提供了一种基于注释的视频检索方法，在基于特征匹配的视频检索中，通过检索关键字和各视频片段的注释信息从视频整体中找到符合检索条件的视频片段，所述方法包括：

步骤S100：在存储器中设置一个索引表文件，该索引表文件中保存的每条记录包括镜头指针、字符文本和指令编码这三个数据项；

步骤S200：每当监测到网络终端机的输入设备开始动作时，触发采集由网络服务器转发、源自所述网络终端机的屏幕显示的视频流以及源自所述网络终端机的输入设备的字符输入和指令操作，并将所采集的字符输入形成字符文本、将所采集的指令操作编码化后形成指令编码，当所述网络终端机的输入设备的持续静默时间超过设定的阈值时，上述触发采集数据的单次过程结束；

步骤S300：对应于步骤S200中每次的触发采集过程，将所采集的视频流保存于存储器中形成一个视频片段，并在步骤S100中所述的索引表文件中创建一条记录，在该条记录中所述镜头指针、字符文本和指令编码的三个数据项，依次对应地存储所述视频片段在存储器中保存位置的指针以及步骤S200中所采集的字符文本和指令编码；

步骤S400：根据检索关键字，在索引表文件中字符文本和指令编码的数据项范围内，检索出符合检索条件的所有记录条目，并返回这些所有记录条目中镜头指针数据项所保存的数值，若索引表文件中不存在符合检索条件的记录条目，则返回检索失败的信息。

优选地，步骤S200中所述将所采集的指令操作编码化，其实现方法是，预先约定指令操作与指令编码之间的对应关系，当网络终端机输入设备输入某种指令操作时，对应产生相应的指令编码。

优选地，在所述步骤S400中，还包括注释信息展示的子步骤：当检索出符合检索条件的所有记录条目后，与该所有记录条目一一对应地展示其中保存的字符文本和指令编码的完整数据项信息。

优选地，在所述步骤S400中，还包括视频片段播放的子步骤：当检索出符合检索条件的所有记录条目后，播放该所有记录条目中镜头指针所各自指示的视频片段。

优选地，步骤S100中所述每条记录还包括时间戳的数据项；在步骤S200中，每当监测网络终端机的输入设备开始动作时，还触发采集系统时间的数值；在步骤S300中，在创建一条记录时，还将触发采集的系统时间数值保存于该记录中时间戳的数据项；步骤S400中所述检索关键字为时间数值，将该时间数值与索引表文件中各记录条目内时间戳数据项的数值进行比较后，返回符合时间数值检索条件的所有记录条目中镜头指针数据项所保存的数值。

优选地，在所述步骤S400中，还包括时间戳展示的子步骤：当以字符文本或/和指令编码作为关键字检索出符合检索条件的所有记录条目后，与该所有记录条目一一对应地展示其中保存的时间戳的数据项信息。

第二方面，本发明提供了一种基于注释的视频检索装置，在基于特征匹配的视频检索中，通过检索关键字和各视频片段的注释信息从视频整体中找到符合检索条件的视频片段，所述装置包括：

模块M100，用于：在存储器中设置一个索引表文件，该索引表文件中保存的每条记录包括镜头指针、字符文本和指令编码这三个数据项；

模块M200，用于：每当监测到网络终端机的输入设备开始动作时，触发采集由网络服务器转发、源自所述网络终端机的屏幕显示的视频流以及源自所述网络终端机的输入设备的字符输入和指令操作，并将所采集的字符输入形成字符文本、将所采集的指令操作编码化后形成指令编码，当所述网络终端机的输入设备的持续静默时间超过设定的阈值时，上述触发采集数据的单次过程结束；

模块M300，用于：对应于步骤S200中每次的触发采集过程，将所采集的视频流保存于存储器中形成一个视频片段，并在步骤S100中所述的索引表文件中创建一条记录，在该条记录中所述镜头指针、字符文本和指令编码的三个数据项，依次对应地存储所述视频片段在存储器中保存位置的指针以及步骤S200中所采集的字符文本和指令编码；

模块M400，用于：根据检索关键字，在索引表文件中字符文本和指令编码的数据项范围内，检索出符合检索条件的所有记录条目，并返回这些所有记录条目中镜头指针数据项所保存的数值，若索引表文件中不存在符合检索条件的记录条目，则返回检索失败的信息。

优选地，在所述模块M400中，还包括视频片段播放的子模块，用于：当检索出符合检索条件的所有记录条目后，播放该所有记录条目中镜头指针所各自指示的视频片段。

第三方面，本发明提供了一种计算机系统，包括处理器、存储器以及存储在存储器上并可由处理器运行的计算机程序，所述处理器运行所述计算机程序时，实现如本发明第一方面所述的视频检索方法。

第四方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时，实现如本发明第一方面所述的视频检索方法。

关于本发明技术方案所产生的有益效果，如下所述：

本发明的技术方案提供了一种视频片段的检索方式，将网络终端机的输入设备所输入的字符文本及操作命令作为关键字的检索目标，以实现快速定位视频播放位置的目的。相对于现有技术，本发明的技术方案不仅仅通过视频数据的结构化处理，实现了视频片段的自动化切分过程，克服了基于特征匹配的传统视频检索方法中因缺乏语义信息而导致视频检索不便的问题，还通过注释文字的匹配，实现了捕获视频高级内容的目的，更重要的是，通过采集远程终端的输入数据，达到了在视频特征中自动添加语义信息的效果，不但其过程无需人工干预，而且这种视频特征检索所基于的注释信息，因采集于远程终端的实际操作而构成一种原始和真实的一手数据，当其用于终端用户事件的视频检索时，可作为一种高采信度的证据，同时也避免了人工添加语义信息时可能存在的错误信息输入等问题。

附图说明

图1是本发明方法的步骤框图；

图2是本发明方法的步骤例图；

图3是索引表文件中记录存储结构的示意图；

图4是作为优选实施例的索引表文件中记录存储结构的示意图；

图5是现有技术中堡垒机工作机制的示意图；

图6是本发明在堡垒机领域中应用的一个实施例示意图。

具体实施方式

为能更清楚地说明本发明技术方案的特点，下面通过具体实施方式，并结合附图，对本发明作进一步的详细阐述。

本发明所涉的视频检索，是指从大量的视频数据中找到用户所需的视频片断，它可应用于网络事件监控等领域，作为网络终端机中相关操作人员执行某种操作行为证据精准获取的辅助技术手段；本说明书文件中称谓的视频片段，在某些技术文献中也称为镜头，它是视频数据的基本单元，视频处理通常是首先将整个视频分割为若干视频片段以作为基本的索引单元，这是实现基于内容的视频检索的基础；本说明书文件中称谓的帧，是指一幅静止的图像，它是组成视频的最小单位，镜头就是由一系列帧组成的一段视频；本说明书文件中称谓的网络终端机，至少应具备显示器等输出设备及键盘、鼠标等输入设备，但并不限定其是否具备独立的CPU、内存、硬盘、主板等器件，也不限定这些器件的具体性能参数，尽管在本发明所属的技术领域，网络终端机有时会被视为一种不含有CPU、内存、硬盘和主板的电脑，作为本发明一种典型技术应用领域的堡垒机审计系统中，网络终端机的分布形式可具体表现为管理员、开发人员、运维人员、外包人员、注册用户、游客等诸多身份。

对于本技术领域的普通技术人员而言，可视具体情况理解有关术语在本发明中的具体含义。

作为第一实施例，本发明提供了一种基于注释的视频检索方法，在基于特征匹配的视频检索中，通过检索关键字和各视频片段的注释信息从视频整体中找到符合检索条件的视频片段，所述方法包括：

上述第一实施例中的方法执行步骤，由图1示意性地给出。为便于在整体上理解本发明的技术方案，上述第一实施例中的四个步骤又可简化地概括为：数据存储的格式定义、数据的采集、数据的存储以及视频数据的检索实现。

上述第一实施例中的方法执行步骤，还可结合图2所举例的情形进行具体说明。为将问题场景简化，这里假设需要数据采集的网络终端机只有A、B两台，并且针对每台终端机均只采集两个视频片段，故最终生成不妨编号为A1、A2、B1和B2的四个视频片段，对于这四个视频片段，在索引表文件中相应保存的四条记录也不妨以A1、A2、B1和B2来表示，在每一条记录中，均包括镜头指针、字符文本和指令编码的三个数据项。

上述实施例中各步骤之间及各步骤内部的文字记载顺序，仅仅是出于表达和理解上的方便，但其并不限定本发明技术方案要求保护的范围，例如：针对视频片段、镜头指针、字符文本及指令编码而言，其数据采集、生成和存储的先后顺序，在可以解决本发明技术问题并能实现本发明技术效果的前提下，仍存在不同于当前具体实施例的其他变换形式。

在本发明方法的步骤S100中所涉的索引表文件，其每条记录的存储结构由图3示意，需要说明的是，该索引表文件中每条记录所包括的三个数据项即镜头指针、字符文本及指令编码，其相互间的前后排列顺序并不受图3的具体限制，例如将每条记录中三个数据项之间的排列顺序变换为指令编码、字符文本和镜头指针，仍不脱离本发明的思想。

在本发明方法的步骤S200中，是以自动触发的方式捕获产生每个视频片段的。若要实现基于内容的视频检索功能，首先就要将视频分割为若干视频片段并将其作为基本的索引或检索单元，在现有技术中，通常利用镜头边界检测的方法把视频分割为若干视频片段，其依据往往是，当镜头切换时，视频数据会发生一系列的变化，主要表现为颜色差异突然增大、新旧边缘的远离、对象形状的改变以及运动的不连续性等方面，目前镜头边界检测通常采用计算帧间差的方法进行，一般而言，同一镜头（视频片段）内各帧之间差异较小，而不同镜头的帧之间差异较大。在本发明中，每一镜头的视频数据的获取，开始于网络终端机输入设备的动作开始，终止于网络终端机输入设备连续静默时间超过所设定的时间阈值，这种镜头数据的生成方式自然免除了视频镜头切割的问题，毕竟为实现镜头切割而进行的镜头边界检测也是一项繁琐的工作；另外，这种当网络终端机的输入设备无操作动作时忽略采集其屏幕显示的数据记录方式，自然也减小了所采集视频数据的总存储大小。这里需要补充说明的是，本发明中的视频采集与现有技术中某些视频监控设备只有在所采集的视频帧持续发生变化方才记录视频流，而对保持静默不变的连续视频帧则采用省略不计的数据记录方式尽管有些类似，但二者之间仍有本质的区别：其一，本发明中触发视频数据采集的触发源是网络终端机输入设备的动作开始，而现有技术中某些视频监控设备触发视频数据采集的触发源在于所采集的视频流本身发生变化；其二，本发明中触发视频采集的目的在于形成每一个视频片段或镜头，而现有技术中某些视频监控设备触发视频采集的目的通常在于减小所生产的视频文件的总大小；其三，本发明中伴随触发视频采集的数据还包括对网络终端机输入设备的字符输入和命令操作，而现有技术中某些视频监控设备伴随触发视频采集的数据则通常不涉及该信息采集的问题。

在本发明方法的步骤S300中，与各视频片段相对应的注释信息，构成了检索关键字的检索范围，它包括字符文本和指令编码的数据项范围，换言之，它既可以是由网络终端机输入设备所实际输入的各种字符，也可以是由网络终端机输入设备所执行并经编码化的操作命令。作为进一步扩展，该注释信息还可以是一种时间数值，此时列入检索范围的视频片段的注释信息则进一步地包括了时间数值。

在本发明方法的步骤S400中涉及的检索关键字，是指在计算机内部可数字化编码且可由计算机输入设备所输入的字符，它可以是由人工输入的字符，也可以是由接口程序所传递的字符。作为扩展，当与各视频片段相对应的注释信息涉及时间数值时，这里的检索关键字自然也可以是一种时间数值。

就问题根源来讲，对原始生成的视频进行人工检索的效率之所以较低的根本原因，在于原始生成的视频数据通常是一个非结构化的二维图像流序列，要实现基于内容的视频检索，必须首先要对这种非结构化的图像流进行处理，使之成为结构性的数据之后才能提取其中的各种特征数据，并进一步实现基于内容检索的目的。作为问题解决思路，为了克服人工检索视频效率较低的弊端，首先要对原始生成的视频进行结构化地数据处理，然后根据所提取的视频图像特征建立基于视频特征的索引，特征库中每个索引数据项包含了关键属性值，通过索引项的数据读取以及对特征库的快速访问，即可实现基于内容的视频检索和浏览。

基于上述思路，在本发明方法所提供的技术方案中，将较为突出的特征简单概括起来就是：其一，将注释信息作为与特定视频片段相关联的语义属性集，通过对注释信息的检索或浏览，可捕获用户所期望的视频片段；其二，与视频片段相对应的注释信息至少包括对应于每一视频片段的字符文本和指令编码，甚至还可能进一步地包括时间戳等信息；其三，在对整个视频的检索过程中，为便于对特定视频片段的快速定位，设置了一个索引表文件作为实现检索的辅助工具，由索引表文件中的每一条记录建立一个视频片段的索引信息，而索引表文件内每一条记录中存储的字符文本和指令编码的数据项集合，则构成了关键字的检索范围，最终通过返回符合检索条件的记录条目中镜头指针所保存的数值实现视频片段的检索，因为每个镜头指针都对应存储一个视频片段；其四，注释信息源自网络终端机输入设备的输入操作并由网络服务器转发。总之，视频片段的自动切分、注释信息的自动获取以及注释信息与相应视频片段之间的关联性，是构成本发明技术方案的主要技术特征。

本发明的技术方案特别适合于网络安全管理中堡垒机运维审计、金融机构管理中网点柜员操作记录检查、网络用户操作监控等场景下事后监督时对海量视频片段的检索，这些技术应用领域的一个共同特点是，视频采集对象源自远程终端的屏幕显示，对远程终端输入设备所输入的字符文本和操作命令具有可获取性，并且在远程终端的输入操作与屏幕显示的视频流之间，具有视频片段检索的强关联性，这些共同特点的存在使得本发明的技术方案切实可行。

作为优选实施例，步骤S200中所述将所采集的指令操作编码化，其实现方法是，预先约定指令操作与指令编码之间的对应关系，当网络终端机输入设备输入某种指令操作时，对应产生相应的指令编码。

在该优选实施例中，由网络终端机发出的每一种命令操作，例如点击软件界面中的功能按钮等，不同于文本字符的输入，在不进行语义定义或描述的情况下通常是难以检索的，这里通过对指令操作的编码化定义，使得网络终端机发出的各种操作行为变得可描述、可检索。这里对指令操作的编码化，也可视为对视频片段可检索注释信息的一种结构化处理过程，其目的就是为了便于后期对网络终端机所历经的各种人工操作指令进行结构化地保存和检索，或者说它可以在文本字符这一基本检索手段的基础上，又增加了对视频片段检索的更多手段。

作为优选实施例，在所述步骤S400中，还包括注释信息展示的子步骤：当检索出符合检索条件的所有记录条目后，与该所有记录条目一一对应地展示其中保存的字符文本和指令编码的完整数据项信息。

在该优选实施例中，作为符合检索条件的检索结果，向用户提供检索关键字所处的字符文本和操作编码的母本信息或上下文信息，同样会方便用户验证检索结果到底是否属于所需的视频片段。在索引表文件的同一条记录中所保存的镜头指针、字符文本与指令编码之间具有关联性，因为它们针对的都是同一视频片段。

作为优选实施例，在所述步骤S400中，还包括视频片段播放的子步骤：当检索出符合检索条件的所有记录条目后，播放该所有记录条目中镜头指针所各自指示的视频片段。

在该优选实施例中，通过作为符合检索条件的检索结果的视频片段的播放，给用户较为直观的检索结果展示，并方便用户便捷地验证视频检索结果是否真正属于所需的视频片段。

作为优选实施例，步骤S100中所述每条记录还包括时间戳的数据项；在步骤S200中，每当监测网络终端机的输入设备开始动作时，还触发采集系统时间的数值；在步骤S300中，在创建一条记录时，还将触发采集的系统时间数值保存于该记录中时间戳的数据项；步骤S400中所述检索关键字为时间数值，将该时间数值与索引表文件中各记录条目内时间戳数据项的数值进行比较后，返回符合时间数值检索条件的所有记录条目中镜头指针数据项所保存的数值。

在该优选实施例中，显然是增加了对系统时间的采集并将其作为更多的注释信息，该时间注释信息通常对应于每一视频片段的起始时间，不同于字符输入和命令操作，对系统时间的采集是瞬间完成而非在一个时间片段内持续进行的。若作为视频检索结果的每一视频片段的起始均携带有事件发生的时间信息，则有利于相关事件的调查取证；并且还可进一步地将视频片段发生的起始时间作为一种检索数据，从而利用时间信息作为视频片段的检索条件，以丰富视频片段的检索手段。在该优选实施例中，索引表文件的记录存储结构，将由图3进一步优化为图4。

作为优选实施例，在所述步骤S400中，还包括时间戳展示的子步骤：当以字符文本或/和指令编码作为关键字检索出符合检索条件的所有记录条目后，与该所有记录条目一一对应地展示其中保存的时间戳的数据项信息。

在该优选实施例中，通过展示作为符合检索条件的事件发生时间，向用户提供视频片段中所携带的时间信息。

下面给出本发明方法在堡垒机技术领域中一种具体应用的实施例：

在企业和组织中，为了保障网络和数据不受来自外部和内部用户的入侵和破坏，提高网络安全性，保护机构的重要信息资产，在网络部署中，技术人员常常会通过作为入口的堡垒机监控和记录运维人员对网络内的服务器、网络设备、安全设备、数据库等设备的操作行为，以便集中报警、及时处理及审计定责等，图5示意性地给出了目前堡垒机的工作机制：运维管理区的各方操作人员在操作过程中首先连接到堡垒机，然后向堡垒机提交操作请求，该请求通过堡垒机的权限检查后，堡垒机的应用代理模块将代替用户连接到运维资产集中的某个目标设备完成该操作，之后目标设备将操作结果返回给堡垒机，最后堡垒机再将操作结果返回给运维管理的操作人员。通过这种方式，堡垒机在逻辑上将运维管理的操作人员与目标设备隔离开来，以建立操作人员→堡垒机用户账号→授权→目标设备账号→目标设备的管理模式，从而解决了操作权限控制和行为审计问题，也解决了加密协议和图形协议等无法通过协议还原进行审计的问题。堡垒机作为一种运维安全审计系统，为了实现对操作人员操作过程的监控审计，往往需要全程记录用户的操作行为，并对操作人员的屏幕显示进行视频录制用于事后还原运维场景，以便对相关操作人员进行定责处理。

在现有技术中，尽管已有相关技术方案披露了由网络终端机的显示屏幕采集视频流作为远程采证手段，但其最终往往也只能是通过人工目视的检索方式，或者利用时间数值作为视频片段的检索条件，而在整个视频中为了实现针对注释信息的关键字检索功能，若以人工方式地为每一视频片段添加注释文字，通常又被视为一种效率较低、甚至不太现实的做法。

当将本发明的技术方案应用于目前的堡垒机技术领域后，如图6所示，不但由网络终端机输入设备动作时自动生成每一视频片段，而且对应地采集了由网络终端机的输入设备所输入的字符文本和操作命令，还将其作为供关键字检索的注释信息，从而方便了用户根据网络终端机输入设备的具体操作属性或操作特征快速获取其所对应的视频片段，以作为相关事件调查的可靠证据。

针对每一视频片段而言，记录其对应的字符文本、命令编码与指示该视频片段在存储器中保存位置的镜头指针保存在索引表的同一条记录之中，换言之，视频片段与字符文本、命令编码之间具有天然的关联性，由于与视频片段相应的字符文本、命令编码对关键字而言具有可检索性，故视频片段对于关键字而言也随之具有了可检索性，从而方便了用户对视频片段的检索操作，当视频数据总量较大的情况下，视频片段的可检索性将更具有重要意义。需要说明的是，图5及图6中运维管理区的相关人员构成以及运维资产集中的资产构成仅为示意，在实际应用中他们并不受图5及图6的具体限制。

作为第二实施例，本发明提供了一种基于注释的视频检索装置，在基于特征匹配的视频检索中，通过检索关键字和各视频片段的注释信息从视频整体中找到符合检索条件的视频片段，所述装置包括：

作为优选实施例，在所述模块M400中，还包括视频片段播放的子模块，用于：当检索出符合检索条件的所有记录条目后，播放该所有记录条目中镜头指针所各自指示的视频片段。

作为第三实施例，本发明提供了一种计算机系统，包括处理器、存储器以及存储在存储器上并可由处理器运行的计算机程序，所述处理器运行所述计算机程序时，实现如本发明第一实施例所述的视频检索方法。

作为第四实施例，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时，实现如本发明第一实施例所述的视频检索方法。

最后需要说明的是，尽管通过具体实施方式对本发明进行了示例性说明，但其不构成对本发明专利保护范围的限制，所属技术领域的技术人员应当理解，对本发明的具体实施例依然可以进行各种等同替换和优化改进，而未脱离本发明精神的任何替换和改进，均应涵盖在本发明的专利保护范围之内。

Claims

1.一种基于注释的视频检索方法，在基于特征匹配的视频检索中，通过检索关键字和各视频片段的注释信息从视频整体中找到符合检索条件的视频片段，其特征在于，所述方法包括：

2.根据权利要求1所述的视频检索方法，其特征在于，步骤S200中所述将所采集的指令操作编码化，其实现方法是，预先约定指令操作与指令编码之间的对应关系，当网络终端机输入设备输入某种指令操作时，对应产生相应的指令编码。

3.根据权利要求1所述的视频检索方法，其特征在于，在所述步骤S400中，还包括注释信息展示的子步骤：当检索出符合检索条件的所有记录条目后，与该所有记录条目一一对应地展示其中保存的字符文本和指令编码的完整数据项信息。

4.根据权利要求1所述的视频检索方法，其特征在于，在所述步骤S400中，还包括视频片段播放的子步骤：当检索出符合检索条件的所有记录条目后，播放该所有记录条目中镜头指针所各自指示的视频片段。

5.根据权利要求1-4中任意一项所述的视频检索方法，其特征在于，步骤S100中所述每条记录还包括时间戳的数据项；在步骤S200中，每当监测网络终端机的输入设备开始动作时，还触发采集系统时间的数值；在步骤S300中，在创建一条记录时，还将触发采集的系统时间数值保存于该记录中时间戳的数据项；步骤S400中所述检索关键字为时间数值，将该时间数值与索引表文件中各记录条目内时间戳数据项的数值进行比较后，返回符合时间数值检索条件的所有记录条目中镜头指针数据项所保存的数值。

6.根据权利要求5所述的视频检索方法，其特征在于，在所述步骤S400中，还包括时间戳展示的子步骤：当以字符文本或/和指令编码作为关键字检索出符合检索条件的所有记录条目后，与该所有记录条目一一对应地展示其中保存的时间戳的数据项信息。

7.一种基于注释的视频检索装置，在基于特征匹配的视频检索中，通过检索关键字和各视频片段的注释信息从视频整体中找到符合检索条件的视频片段，其特征在于，所述装置包括：

8.根据权利要求7所述的视频检索装置，其特征在于，在所述模块M400中，还包括视频片段播放的子模块，用于：当检索出符合检索条件的所有记录条目后，播放该所有记录条目中镜头指针所各自指示的视频片段。

9.一种计算机系统，包括处理器、存储器以及存储在存储器上并可由处理器运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时，实现如权利要求1-6中任意一项所述的视频检索方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时，实现如权利要求1-6中任意一项所述的视频检索方法。