CN109299324A

CN109299324A - 一种标签式视频文件的检索方法

Info

Publication number: CN109299324A
Application number: CN201811218512.XA
Authority: CN
Inventors: 梁效宁; 杨博
Original assignee: Sichuan Art Beats Nature Information Security Intelligent Equipment Co Ltd
Current assignee: Sichuan Art Beats Nature Information Security Intelligent Equipment Co Ltd
Priority date: 2018-10-19
Filing date: 2018-10-19
Publication date: 2019-02-01
Anticipated expiration: 2038-10-19
Also published as: CN109299324B

Abstract

本发明公开了一种标签式视频文件的检索方法，其特征在于包括以下步骤:S100：根据视频文件的时间戳，添加所选定时间节点的文字标签和/或声纹标签；S200：将文字标签与对应的时间节点及对应的视频帧进行关联并建立索引，生成文本数据库；将声纹标签与对应的时间节点及对应的视频帧进行关联并建立索引，生成声纹数据库；S300：采集待检索人员的人声，获取并记录待检索人员的人声的声纹特征，并对人声进行特征采样，在所述索引中对比声纹特征的相似度，获取相似度最高的索引信息，并获取待检索人员信息，形成检索依据；S400：在声纹数据库中采用声纹检索和/或在文本数据库中采用文本检索，并获取检索结果。

Description

一种标签式视频文件的检索方法

技术领域

本发明属于安防及监控领域，涉及一种视频文件的检索方法，具体涉及一种标签式视频文件的检索方法。

背景技术

视频作为信息涵盖量最大、记录方式最全面的一种信息记录手段，一直以来都被广泛应用在安防、经验传承、资料流转、娱乐等众多领域。但由于视频本身所表现内容无法直接被计算机解析，因此要对原始的视频根据所记录事件的内容进行精准检索就比较困难。其主要特点在于视频实际内容无法量化存储，因此无法像文字一样进行索引，也就无从精准检索。目前常见的检索方式有通过视频时间进行检索和通过图像识别技术对比视频帧记录的图像进行检索。现有技术各自存在不同的缺点：

1、通过视频的时间进行检索，该方法精度高，但逻辑性差，与实际内容并无直接关联。

2、使用图像识别技术对视频帧进行匹配检索。该方法可以针对人脸、场景进行识别，但速度慢，准确度也差强人意。

发明内容

本发明针对现有技术的不足问题，提出了一种标签式视频文件的检索方法，通过添加所选定时间节点的文字标签和/或声纹标签，建立索引并分别生成文本数据库和声纹数据库，通过声纹特征对人声进行特征采样，获取待检索人员信息，在声纹数据库中采用声纹检索和/或在文本数据库中采用文本检索，并获取检索结果，从而达到对视频文件检索的目的，包括以下步骤:

S100：根据视频文件的时间戳，添加所选定时间节点的文字标签和/或声纹标签；

S200：将文字标签与对应的时间节点及对应的视频帧进行关联并建立索引，生成文本数据库；将声纹标签与对应的时间节点及对应的视频帧进行关联并建立索引，生成声纹数据库；

S300：采集待检索人员的人声，获取并记录待检索人员的人声的声纹特征，并对人声进行特征采样，在所述索引中对比声纹特征的相似度，获取相似度最高的索引信息，并获取待检索人员信息，形成检索依据；

S400：在声纹数据库中采用声纹检索和/或在文本数据库中采用文本检索，并获取检索结果。

优选地，所述步骤S100包含以下具体步骤：

S101：记录所述时间点的时间标签和文字标签；

S102：获取所述时间点前后N秒内所记录的人声，获取并记录人声的声纹特征，其中，N为大于0的自然数；

S103：将每一声纹特征与各个人员的人声及人员信息进行匹配，生成声纹标签；

S104：将带时间戳的文字标签和带时间戳的声纹标签，按相同的时间戳形成一一对应的关系并记录在列表中。

优选地，步骤S200的具体步骤如下：

S201：遍历所述步骤S104的列表，以时间节点为主键，将同一时间节点的文字标签和/或声纹标签进行归集，生成以时间节点为主键的标签记录；

S202：遍历过程中，添加不同人员的人声的声纹特征，将声纹特征与人员的人声进行匹配，并将人员的人声与声纹特征进行关联，生成新的数据列表；

S203：遍历所述标签记录，获取各个所述标签记录的时间戳，根据时间戳，查找所述视频文件中时间节点所对应的视频帧，获取视频帧图片并插入所述步骤S202所生成的新的数据列表中，作为当前时间节点的视频缩略图；

S204：存储所述步骤S202中遍历所生成的新的数据列表，将所述数据列表与所述视频文件的MD5码关联，获得视频索引数据库。

优选地，所述步骤S400包括以下步骤：

S401：声纹特征包含待检索人员的人声的声纹特征，则根据当前声纹特征检索所述视频索引数据库，检索所有包含待检索人员的视频文件及相应的视频索引；

S402：声纹特征未包含待检索人员的人声的声纹特征，则将该声纹特征与声纹数据库中样本逐一对比，获取检索结果；

S403：在所述视频索引数据库中，对当前文本进行模糊搜索或精确搜索，获取检索结果、待检索的视频及对应的索引信息。

优选地，所述步骤S300还包括：采用索引中的声纹特征，获取待检索人员信息。

本发明的有益效果是:

1、在录制过程中或录制完成后，对视频进行预处理，生成记录声纹特征、增加声纹标签或根据内容添加文字标签，针对不同类型的视频可以定义不同类型的标签，检索自由度较高。

2、根据声纹标签或文字标签，创建与视频时间轴同步的索引信息，配合前文的标签，能够进行快速检索，能在耗时与普通时间戳检索相同的情况下，实现对内容甚至人声的检索。

3、使用人声识别技术构建人声特征标签，并根据人声特征标签构建索引，能够在事后对待检索的人声进行取样，并实现寻找众多视频中某个特定人的语音信息，便于进行会议、实验等与人相关的视频检索。

4、该方法可以对视频数据库进行检索，获得多维度的检索结果，不限于单文件的检索。

对本发明出现的术语作出以下解释：

与视频录制时间同步的视频标签：即一种文字或声纹索引，每一条索引都和视频的时间戳相对应，以便后期根据视频标签直接找到相应的视频时间，实现回溯。

声纹索引：每个人的声纹是不同的，根据通行的语音特征识别技术，对每个人的声纹特征进行记录，在预处理阶段，人声每次出现的时候即记录一个属于该声纹特征的声纹标签，并进行索引。

附图说明：

图1为本发明所提供的方法的总流程图。

具体实施方式

下面对本发明作进一步阐述。

结合附图对本发明提供的方法做进一步的说明，包括如图1所示的以下步骤:

步骤S100包含以下具体步骤：

S101：记录时间点的时间标签和文字标签；

S102：获取时间点前后N秒内所记录的人声，获取并记录人声的声纹特征，其中，N为大于0的自然数；

S200：将文字标签与对应的时间节点及对应的视频帧进行关联并建立索引，生成文本数据库；将声纹标签与对应的时间节点及对应的视频帧进行关联并建立索引，生成声纹数据库；步骤S200的具体步骤如下：

S201：遍历步骤S104的列表，以时间节点为主键，将同一时间节点的文字标签和/或声纹标签进行归集，生成以时间节点为主键的标签记录；

S203：遍历标签记录，获取各个标签记录的时间戳，根据时间戳，查找视频文件中时间节点所对应的视频帧，获取视频帧图片并插入步骤S202所生成的新的数据列表中，作为当前时间节点的视频缩略图；

S204：存储步骤S202中遍历所生成的新的数据列表，将数据列表与视频文件的MD5码关联，获得视频索引数据库。

S300：采集待检索人员的人声，获取并记录待检索人员的人声的声纹特征，并对人声进行特征采样，在索引中对比声纹特征的相似度，获取相似度最高的索引信息，并获取待检索人员信息，形成检索依据；此外，还可以采用索引中的声纹特征，直接获取待检索人员信息。

S400：在声纹数据库中采用声纹检索和/或在文本数据库中采用文本检索，并获取检索结果；步骤S400包括以下步骤：

S401：声纹特征包含待检索人员的人声的声纹特征，则根据当前声纹特征检索视频索引数据库，检索所有包含待检索人员的视频文件及相应的视频索引；

S403：在视频索引数据库中，对当前文本进行模糊搜索或精确搜索，获取检索结果、待检索的视频及对应的索引信息。

通过本发明提供的方法，解决了现有技术中尚无一种标签式视频文件的检索方法的技术问题。

应当理解的是，本发明不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种标签式视频文件的检索方法，其特征在于包括以下步骤：

2.根据权利要求1所述的一种标签式视频文件的检索方法，其特征在于，所述步骤S100包含以下具体步骤：

S101：记录所述时间点的时间标签和文字标签；

3.根据权利要求2所述的一种标签式视频文件的检索方法，其特征在于，所述步骤S200的具体步骤如下：

4.根据权利要求3所述的一种标签式视频文件的检索方法，其特征在于，所述步骤S400包括以下步骤：

5.根据权利要求1所述的一种标签式视频文件的检索方法，其特征在于，所述步骤S300还包括：采用索引中的声纹特征，获取待检索人员信息。