CN105828179A

CN105828179A - 视频定位方法和装置

Info

Publication number: CN105828179A
Application number: CN201510359341.2A
Authority: CN
Inventors: 张哲楠
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2015-06-24
Filing date: 2015-06-24
Publication date: 2016-08-03

Abstract

本发明提供了一种视频定位方法和装置，所述方法包括：解析待定位视频生成声纹库集合；获取用户语音指令；依据所述用户语音指令检索所述声纹库集合进行匹配处理，得到定位时间坐标集合；获取所述定位时间坐标集合对应的帧画面并显示以供用户进行选择。与传统技术中用户需要多次调整进度条进行帧预览来定位方法比较而言，本发明通过声纹匹配，直接显示多个匹配的位置帧画面，用户可以直接选择，简化了视频定位步骤，节省了视频定位的时间，从而提高了视频定位效率，优化了用户不断调整进度条预览定位的过程。

Description

视频定位方法和装置

技术领域

本发明涉及通信技术领域，特别是涉及一种视频定位方法和装置。

背景技术

当下，观看视频已成为人们日常生活中的必须，分享视频图片的需求也越来越多，如何更便捷的将视频定位到用户想要的位置或者直接获取用户想要分享处的视频图片仍没有太好的方法。

目前视频定位主要方式是帧预览加用户选择的方式，这样的方式用户一般需要多次调整进度条进行帧预览来选择，视频定位耗时长，定位效率不高，操作繁琐，用户体验差。

发明内容

本发明提供了一种视频定位方法和装置，以解决视频定位效率低的问题。

为了解决上述问题，本发明公开了一种视频定位方法，包括：

解析待定位视频生成声纹库集合；

获取用户语音指令；

依据所述用户语音指令检索所述声纹库集合进行匹配处理，得到定位时间坐标集合；

获取所述定位时间坐标集合对应的帧画面并显示以供用户进行选择。

本发明还公开了一种视频定位装置，包括：

集合生成模块，用于解析待定位视频生成声纹库集合；

指令获取模块，用于获取用户语音指令；

匹配模块，用于依据所述用户语音指令检索所述声纹库集合进行匹配处理，得到定位时间坐标集合；

显示模块，用于获取所述定位时间坐标集合对应的帧画面并显示以供用户进行选择。

与现有技术相比，本发明至少包括以下优点：

本发明首先解析待定位视频生成声纹库集合，其次获取用户语音指令，再次依据所述用户语音指令检索所述声纹库集合进行匹配处理，得到定位时间坐标集合，最后获取所述定位时间坐标集合对应的帧画面并显示以供用户进行选择。与传统的用户需要多次调整进度条进行帧预览来定位方法比较而言，本发明通过声纹匹配，直接显示多个匹配的位置帧画面，用户可以直接选择，简化了视频定位步骤，节省了视频定位的时间，从而提高了视频定位效率，优化了用户不断调整进度条预览定位的过程。并且依据用户语音指令检索所述声纹库集合进行匹配处理，提高了视频定位的准确性。

附图说明

图1是本发明实施例一中一种视频定位方法的流程图；

图2是本发明实施例二中一种视频定位方法的流程图；

图3是本发明实施例三中一种视频定位方法的流程图；

图4是本发明实施例四中一种视频定位装置的结构框图；

图5是本发明实施例四中另一种视频定位装置的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例一：

参照图1，示出了根据本发明一个实施例的一种视频定位方法实施例的步骤流程图，具体可以包括如下步骤：

步骤101，解析待定位视频生成声纹库集合。

需要说明的是视频中的音视频通路本身就是分开的，本实施例可以通过解析待定位视频，得到音频通路信息，音频通路信息具体可以包括时间戳、音频波形等信息。其中时间戳通常是一个字符序列，唯一地标识某一刻的时间。音频通路信息和视频通路信息中的时间戳都和一个时间参考线对应，因此才能同步。具体实现时可以通过分割所述音频通路信息得到声纹库集合，例如声纹库集合T{t1,t2,…tn}，其中(t1+t2+…+tn为完整音频，t1中存储0～t时间的音频波形，t2中存储t～2*t时间的音频波形，以此类推。

步骤102，获取用户语音指令。

本实施例中用户语音指令具体可以是待定位视频的一段录音，用户启动录音开始声音采集，用户停止录音结束声音采集。采集到的音频定义为X，将音频X按步骤101中类似的分割方法处理为集合X{x1,x2,…xn}，然后将X作为用户语音指令。需要说明的是，本步骤在获取用户语音指令时，对所采集的录音进行分割时采用的单位时间，与步骤101中生成声纹库集合时采用的单位时间必须相同。

步骤103，依据所述用户语音指令检索所述声纹库集合进行匹配处理，得到定位时间坐标集合。

本步骤是将步骤102中获取到的用户语音指令，与步骤101中生成的声纹库集合进行匹配，在所述待定位视频中将匹配到的视频所对应的时间坐标记录下来，得到定位时间坐标集合。即将X{x1,x2,…xn}与T{t1,t2,…tn}进行逐段比对(默认T>X)。

步骤104，获取所述定位时间坐标集合对应的帧画面并显示以供用户进行选择。

本实施例可以通过开始时间从所述待定位视频中获取所述定位时间坐标集合对应的帧画面并显示出来，用户可以直接从中进行选择。至于帧画面的具体显示方式，本实施例对此不做限制。

本实施例首先解析待定位视频生成声纹库集合，其次获取用户语音指令，再次依据所述用户语音指令检索所述声纹库集合进行匹配处理，得到定位时间坐标集合，最后获取所述定位时间坐标集合对应的帧画面并显示以供用户进行选择。与传统的用户需要多次调整进度条进行帧预览来定位方法比较而言，本实施例通过声纹匹配，直接显示多个匹配的位置帧画面，用户可以直接选择，简化了视频定位步骤，节省了视频定位的时间，从而提高了视频定位效率，优化了用户不断调整进度条预览定位的过程。并且依据用户语音指令检索所述声纹库集合进行匹配处理，提高了视频定位的准确性。

实施例二：

在上述实施例的基础上，本实施例继续说明视频定位方法。

参照图2，示出了根据本发明一个实施例的一种视频定位方法实施例的步骤流程图，具体可以包括如下步骤：

步骤201，解析待定位视频获取音频通路信息。

需要说明的是视频中的音视频通路本身就是分开的，本实施例可以通过解析待定位视频，得到音频通路信息，音频通路信息具体可以包括时间戳、音频波形等信息。其中时间戳通常是一个字符序列，唯一地标识某一刻的时间。音频通路信息和视频通路信息中的时间戳都和一个时间参考线对应，因此才能同步。

本实施例中所述解析待定位视频获取音频通路信息，具体可以通过以下方式来实现：首先，解析待定位视频获取时间戳和音频波形；其次，将所述时间戳和音频波形作为音频通路信息。

步骤202，将所述音频通路信息收集成声纹集合并记录对应的时间数据。

本实施例中所述将所述音频通路信息收集成声纹集合并记录对应的时间数据，具体可以通过以下方式来实现：首先，根据所述时间戳将所述音频波形按单位时间平均分割为声纹集合；其次，记录所述单位时间内的声纹集合对应的时间数据。

本实施例实现时可以根据所述时间戳将所述音频波形按单位时间平均分割为声纹集合，例如：根据时间戳将音频信息按单位时间t平均分割为集合T{t1,t2,…tn}，其中(t1+t2+…+tn为完整音频，t1中存储0～t时间的音频波形，t2中存储t～2*t时间的音频波形，以此类推。接着记录所述单位时间内的声纹集合对应的时间数据。

步骤203，将所述声纹集合与对应的时间数据关联生成对应的声纹库集合。

本实施例中将步骤202中的声纹集合与对应的时间数据进行关联处理，生成声纹库集合，其中所述声纹库集合中包括多个声纹集合与其对应的时间数据，且所述声纹集合与所述时间数据一一对应。本实施例对于具体的关联方式不做限制。需要说明的是，在本发明的可选实施例中，所述步骤202中的声纹集合为对应的视频声纹集合，关联声纹库后，需要先在声纹库中根据视频名称进行检索，若有匹配的项，则使用该项为该视频的声纹集合Map。

步骤204，获取用户语音指令。

本实施例中所述获取用户语音指令，具体可以通过以下方式来实现：首先，启动录音，采集语音信息；其次，将所述语音信息按单位时间平均分割为语音集合；再次，记录所述单位时间内的语音集合对应的时间数据；最后，将所述语音集合与对应的时间数据关联生成对应的语音库集合，并将所述语音库集合作为用户语音指令。例如：用户启动录音→开始声音采集，用户停止录音→结束声音采集。采集到的音频定义为语音信息，将语音信息按步骤步骤202中类似的分割方法处理为语音集合X{x1,x2,…xn}，即根据所述时间戳将所述语音信息按单位时间t平均分割为语音集合X{x1,x2,…xn}，然后将语音集合X作为用户语音指令。需要说明的是，本步骤在获取用户语音指令时，对所采集的录音进行分割时采用的单位时间，与步骤202中生成声纹库集合时采用的单位时间必须相同。

需要说明的是，用户语音指令具体可以是待定位视频的一段录音，用户启动录音开始声音采集，用户停止录音结束声音采集。本实施例仅以用户语音信息为例进行说明，并非对用户语音指令的具体限定。

步骤205，依据所述用户语音指令检索所述声纹库集合进行匹配处理，得到定位时间坐标集合。

本实施例中所述依据所述用户语音指令检索所述声纹库集合进行匹配处理，得到定位时间坐标集合，具体可以包括以下子步骤：子步骤一，将所述用户语音指令与所述声纹库集合按照所述单位时间进行逐段比对。子步骤二，获取每段比对后的相似度，将相似度达到相似阈值的声纹集合对应的时间数据保存为定位时间坐标集合。即将步骤204中获取到的用户语音指令，与步骤203中生成的声纹库集合进行匹配，在所述待定位视频中将匹配到的视频所对应的时间坐标记录下来，得到定位时间坐标集合。也就是说将X{x1,x2,…xn}与T{t1,t2,…tn}进行逐段比对(默认T>X)。当然也可以采取其他方式进行匹配，本实施例并非对具体匹配方式的限定。

在本发明的可选实施例中，将X{x1,x2,…xn}与T{t1,t2,…tn}进行逐段比对之后，还可以获取每段比对后的相似度，并通过开始时间从视频中获取对应的视频帧并保存为集合M{(s1,y1),(s2,y2),…(sm,yn)}(y1为第一段相似度)。

步骤206，获取所述定位时间坐标集合对应的帧画面并显示以供用户进行选择。

本实施例中所述获取所述定位时间坐标集合对应的帧画面并显示以供用户进行选择，具体可以通过以下方式来实现：首先，获取所述定位时间坐标集合对应的帧画面；其次，按照相似度从高到低的顺序显示所述帧画面以供用户进行选择。例如，通过开始时间从视频中获取对应的视频帧并保存为集合M{(s1,y1),(s2,y2),…(sm,yn)}(y1为第一段相似度)，然后可以将M按相似度从高到低排序并划分为N个等级，例如0％～100％分为10个等级，每10％为一级。在显示时可以按等级显示，如70％～80％相似度有5段，则此等级下显示5个视频帧供用户预览选择。需要说明的是，具体实现时，也可以采用其他方式对匹配到的视频帧进行显示，本实施例并非对具体显示方式的限定。

本实施例通过解析待定位视频获取音频通路信息，接着将所述音频通路信息收集成声纹集合并记录对应的时间数据，然后将所述声纹集合与对应的时间数据关联生成对应的声纹库集合。然后获取用户语音指令，依据所述用户语音指令检索所述声纹库集合进行匹配处理，得到定位时间坐标集合，最后获取所述定位时间坐标集合对应的帧画面并显示以供用户进行选择。本实施例针对无字幕视频的匹配问题，通过上述解析待定位视频获取音频通路信息，接着将所述音频通路信息收集成声纹集合并记录对应的时间数据，然后将所述声纹集合与对应的时间数据关联生成对应的声纹库集合的方式生成声纹库集合，然后将采集的语音信息与声纹库匹配来进行视频定位和获取视频图片，与传统的用户需要多次调整进度条进行帧预览来定位方法比较而言，直接显示多个匹配的位置帧画面，用户可以直接选择，简化了视频定位步骤，节省了视频定位的时间，从而提高了视频定位效率，优化了用户不断调整进度条预览定位的过程。并且依据用户语音指令检索所述声纹库集合进行匹配处理，提高了视频定位的准确性。

实施例三：

在上述实施例的基础上，本实施例针对已有声纹的视频继续说明视频定位方法。

参照图3，示出了根据本发明一个实施例的一种视频定位方法实施例的步骤流程图，具体可以包括如下步骤：

步骤301，关联声纹库，初始化声纹集合Map(包含声纹与时间信息)。

需要说明的是，本实施例是针对已有声纹的视频进行的视频定位方法，本实施例中所述声纹集合为对应的视频声纹集合，关联声纹库后，需要先在声纹库中根据视频名称进行检索，若有匹配的项，则使用该项为该视频的声纹集合Map。

步骤302，获取用户语音指令。

本实施例中所述获取用户语音指令，具体可以通过以下方式来实现：首先，启动录音，采集语音信息；其次，将所述语音信息按单位时间平均分割为语音集合；再次，记录所述单位时间内的语音集合对应的时间数据；最后，将所述语音集合与对应的时间数据关联生成对应的语音库集合，并将所述语音库集合作为用户语音指令。需要说明的是，本步骤获取用户语音指令与步骤204获取用户语音指令的类似，具体内容可参见步骤204的相关描述，本实施例在此不做赘述。

步骤303，依据所述用户语音指令检索Map进行匹配处理，得到定位时间坐标集合。

本实施例中所述依据所述用户语音指令检索所述声纹库集合进行匹配处理，得到定位时间坐标集合，具体可以包括以下子步骤：子步骤一，将所述用户语音指令与所述声纹库集合按照所述单位时间进行逐段比对。子步骤二，获取每段比对后的相似度，将相似度达到相似阈值的声纹集合对应的时间数据保存为定位时间坐标集合{T1…Tn}。需要说明的是，本步骤进行匹配处理得到定位时间坐标集合与步骤205依据所述用户语音指令检索所述声纹库集合进行匹配处理，得到定位时间坐标集合类似，具体内容可参见步骤205的相关描述，本实施例在此不做赘述。

步骤304，获取定位时间坐标集合对应的帧画面并显示供用户选择。

本实施例中所述获取所述定位时间坐标集合对应的帧画面并显示以供用户进行选择，具体可以通过以下方式来实现：首先，获取所述定位时间坐标集合对应的帧画面；其次，按照相似度从高到低的顺序显示所述帧画面以供用户进行选择。例如，通过开始时间从视频中获取对应的视频帧并保存为集合M{(s1,y1),(s2,y2),…(sm,yn)}(y1为第一段相似度)，然后可以将M按相似度从高到低排序并划分为N个等级，例如0％～100％分为10个等级，每10％为一级。在显示时可以按等级显示，如70％～80％相似度有5段，则此等级下显示5个视频帧供用户预览选择。需要说明的是，具体实现时，也可以采用其他方式对匹配到的视频帧进行显示，本实施例并非对具体显示方式的限定。需要说明的是，本步骤获取定位时间坐标集合对应的帧画面并显示供用户选择与步骤206获取所述定位时间坐标集合对应的帧画面并显示以供用户进行选择类似，具体内容可参见步骤206的相关描述，本实施例在此不做赘述。

本实施例对于已有声纹的视频，采用了首先关联声纹库，初始化声纹集合Map；其次获取用户语音指令；再次依据所述用户语音指令检索Map进行匹配处理，得到定位时间坐标集合；最后获取定位时间坐标集合对应的帧画面并显示供用户选择的方式进行视频定位，省去了生成声纹库集合的步骤，即简化了视频定位的步骤，节省了视频定位的时间，从而提高了视频定位效率，有定位时间短、匹配更准确的优势。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

实施例四：

在上述实施例的基础上，本实施例还公开了一种视频定位装置。

参照图4，示出了根据本发明一个实施例的一种视频定位装置实施例的结构框图，具体可以包括：集合生成模块401、指令获取模块402、匹配模块403和显示模块404，其中，

集合生成模块401，用于解析待定位视频生成声纹库集合。

指令获取模块402，用于获取用户语音指令。

匹配模块403，用于依据所述用户语音指令检索所述声纹库集合进行匹配处理，得到定位时间坐标集合。

显示模块404，用于获取所述定位时间坐标集合对应的帧画面并显示以供用户进行选择。

在本发明如图5所示的一种可选实施例中，所述集合生成模块401包括：解析子模块4011，用于解析待定位视频获取音频通路信息；收集子模块4012，用于将所述音频通路信息收集成声纹集合并记录对应的时间数据；生成子模块4013，用于将所述声纹集合与对应的时间数据关联生成对应的声纹库集合。

在本发明的一种可选实施例中，所述解析子模块，具体用于解析待定位视频获取时间戳和音频波形；将所述时间戳和音频波形作为音频通路信息。

在本发明的一种可选实施例中，所述收集子模块，具体用于根据所述时间戳将所述音频波形按单位时间平均分割为声纹集合；记录所述单位时间内的声纹集合对应的时间数据。

在本发明的一种可选实施例中，所述指令获取模块，具体用于启动录音，采集语音信息；将所述语音信息按单位时间平均分割为语音集合；记录所述单位时间内的语音集合对应的时间数据；将所述语音集合与对应的时间数据关联生成对应的语音库集合，并将所述语音库集合作为用户语音指令。

在本发明的一种可选实施例中，所述匹配模块，具体用于将所述用户语音指令与所述声纹库集合按照所述单位时间进行逐段比对；获取每段比对后的相似度，将相似度达到相似阈值的声纹集合对应的时间数据保存为定位时间坐标集合。

在本发明的一种可选实施例中，所述显示模块，具体用于获取所述定位时间坐标集合对应的帧画面；按照相似度从高到低的顺序显示所述帧画面以供用户进行选择。

本实施例提供的视频定位装置，首先通过集合生成模块401解析待定位视频生成声纹库集合，其次指令获取模块402获取用户语音指令，再次匹配模块403依据所述用户语音指令检索所述声纹库集合进行匹配处理，得到定位时间坐标集合，最后显示模块404获取所述定位时间坐标集合对应的帧画面并显示以供用户进行选择。与传统的用户需要多次调整进度条进行帧预览来定位方法比较而言，本实施例通过声纹匹配，直接显示多个匹配的位置帧画面，用户可以直接选择，简化了视频定位步骤，节省了视频定位的时间，从而提高了视频定位效率，优化了用户不断调整进度条预览定位的过程。并且依据用户语音指令检索所述声纹库集合进行匹配处理，提高了视频定位的准确性。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种视频定位方法和装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视频定位方法，其特征在于，包括：

解析待定位视频生成声纹库集合；

获取用户语音指令；

2.根据权利要求1所述的方法，其特征在于，所述解析待定位视频生成声纹库集合，包括：

解析待定位视频获取音频通路信息；

将所述音频通路信息收集成声纹集合并记录对应的时间数据；

将所述声纹集合与对应的时间数据关联生成对应的声纹库集合。

3.根据权利要求2所述的方法，其特征在于，所述解析待定位视频获取音频通路信息，包括：

解析待定位视频获取时间戳和音频波形；

将所述时间戳和音频波形作为音频通路信息。

4.根据权利要求3所述的方法，其特征在于，所述将所述音频通路信息收集成声纹集合并记录对应的时间数据，包括：

根据所述时间戳将所述音频波形按单位时间平均分割为声纹集合；

记录所述单位时间内的声纹集合对应的时间数据。

5.根据权利要求4所述的方法，其特征在于，所述获取用户语音指令包括：

启动录音，采集语音信息；

将所述语音信息按单位时间平均分割为语音集合；

记录所述单位时间内的语音集合对应的时间数据；

将所述语音集合与对应的时间数据关联生成对应的语音库集合，并将所述语音库集合作为用户语音指令。

6.根据权利要求5所述的方法，其特征在于，所述依据所述用户语音指令检索所述声纹库集合进行匹配处理，得到定位时间坐标集合，包括：

将所述用户语音指令与所述声纹库集合按照所述单位时间进行逐段比对；

获取每段比对后的相似度，将相似度达到相似阈值的声纹集合对应的时间数据保存为定位时间坐标集合。

7.根据权利要求6所述的方法，其特征在于，所述获取所述定位时间坐标集合对应的帧画面并显示以供用户进行选择，包括：

获取所述定位时间坐标集合对应的帧画面；

按照相似度从高到低的顺序显示所述帧画面以供用户进行选择。

8.一种视频定位装置，其特征在于，包括：

集合生成模块，用于解析待定位视频生成声纹库集合；

指令获取模块，用于获取用户语音指令；

9.根据权利要求8所述的装置，其特征在于，所述集合生成模块包括：

解析子模块，用于解析待定位视频获取音频通路信息；

收集子模块，用于将所述音频通路信息收集成声纹集合并记录对应的时间数据；

生成子模块，用于将所述声纹集合与对应的时间数据关联生成对应的声纹库集合。

10.根据权利要求9所述的装置，其特征在于：

所述解析子模块，具体用于解析待定位视频获取时间戳和音频波形；将所述时间戳和音频波形作为音频通路信息。

11.根据权利要求10所述的装置，其特征在于：

所述收集子模块，具体用于根据所述时间戳将所述音频波形按单位时间平均分割为声纹集合；记录所述单位时间内的声纹集合对应的时间数据。

12.根据权利要求11所述的装置，其特征在于：

所述指令获取模块，具体用于启动录音，采集语音信息；将所述语音信息按单位时间平均分割为语音集合；记录所述单位时间内的语音集合对应的时间数据；将所述语音集合与对应的时间数据关联生成对应的语音库集合，并将所述语音库集合作为用户语音指令。

13.根据权利要求12所述的装置，其特征在于：

所述匹配模块，具体用于将所述用户语音指令与所述声纹库集合按照所述单位时间进行逐段比对；获取每段比对后的相似度，将相似度达到相似阈值的声纹集合对应的时间数据保存为定位时间坐标集合。

14.根据权利要求13所述的装置，其特征在于：

所述显示模块，具体用于获取所述定位时间坐标集合对应的帧画面；按照相似度从高到低的顺序显示所述帧画面以供用户进行选择。