CN103678527A

CN103678527A - 一种基于视频标题和内容的视频过滤方法和系统

Info

Publication number: CN103678527A
Application number: CN201310631404.6A
Authority: CN
Inventors: 刘世才; 毛海涛; 宋轲
Original assignee: TCL Corp
Current assignee: TCL Corp
Priority date: 2013-12-02
Filing date: 2013-12-02
Publication date: 2014-03-26
Anticipated expiration: 2033-12-02
Also published as: CN103678527B

Abstract

本发明公开了一种基于视频标题和内容的视频过滤方法和系统，通过对视频的标题进行拆词，计算标题的相似度和比较视频流的相似度。并将标题的相似度和视频流的相似度作为组合条件进行视频过滤，达到视频去重的效果。从而可以对相似度高的视频新闻进行有效过滤，最大限度的去掉一些类似的视频新闻，让用户在有限时间内观看到的新闻都是当日的头条新闻，为用户带来更好的体验。

Description

一种基于视频标题和内容的视频过滤方法和系统

技术领域

本发明涉及视频比对技术领域，特别涉及一种基于视频标题和内容的视频过滤方法和系统。

背景技术

为了使用户更快、更多、更准确地获取最新的新闻视频内容，如何抓取各大视频网站最新的新闻并及时的推荐给用户成为当前的研究方向之一。

但是这种从各大视频网站聚合的新闻，内容相似的非常多。比如：同样是禽流感的新闻，可能存在多个新闻都是介绍禽流感的，用户观看起来就很乏味，因此，需要对抓取的视频新闻进行分析，对相似内容进行有效过滤。

有鉴于此，现有技术还有待改进和提高。

发明内容

鉴于上述现有技术的不足之处，本发明的目的在于提供一种基于视频标题和内容的视频过滤方法和系统，以解决现有各大视频网站聚合的新闻视频内容重复率高，不利于向用户推送的问题。

为了达到上述目的，本发明采取了以下技术方案：

一种基于视频标题和内容的视频过滤方法，其中，包括：

获取两则视频；

比较两则视频的视频标题是否一样，若是则过滤掉其中一则视频，否则对两则视频的视频标题进行拆词处理；

判断拆词后的视频标题的匹配度是否超过预先设定的匹配度阈值，若是则过滤掉其中一则视频，否则比较两则视频的视频内容是否一致，若一致则过滤掉其中一则视频。

所述的基于视频标题和内容的视频过滤方法，其中，所述过滤掉其中一则视频步骤中，包括：

进一步比较两则视频的属性值，根据所述属性值确定过滤掉哪一则视频；

其中，所述视频的属性值包括：视频的连接速度和视频的清晰度。

所述的基于视频标题和内容的视频过滤方法，其中，比较两则视频的视频内容是否一致具体包括：

A、根据两则视频的播放地址，分别获取与所述播放地址对应的视频信息文件，例如m3u文件，并从所述视频信息文件里面获取两则视频的视频地址；

B、根据两则视频的视频地址，下载并获取二进制的数据流内容，并对数据流内容进行比较；

C、若两个二进制的数据流内容一致，则确定两则视频的视频内容一致，否则为不同的视频内容。

所述的基于视频标题和内容的视频过滤方法，其中，所述步骤B中对数据流内容进行比较具体为使用开发语言提供的处理数据流的类库的方法对数据流内容进行读取并比较。

所述的基于视频标题和内容的视频过滤方法，其中，预先设定的匹配度阈值为60%。

一种基于视频标题和内容的视频过滤系统，其中，包括：

提取单元，用于获取两则视频；

第一过滤单元，用于比较两则视频的视频标题是否一样，若是则过滤掉其中一则视频，否则对两则视频的视频标题进行拆词处理；

第二过滤单元，用于判断拆词后的视频标题的匹配度是否超过预先设定的匹配度阈值，若是则过滤掉其中一则视频，否则比较两则视频的视频内容是否一致，若一致则过滤掉其中一则视频。

所述的基于视频标题和内容的视频过滤系统，其中，所述第一过滤单元中过滤掉其中一则视频具体包括：

比较模块，用于进一步比较两则视频的属性值，根据所述属性值确定过滤掉哪一则视频；

所述的基于视频标题和内容的视频过滤系统，其中，所述第二过滤单元中比较两则视频的视频内容是否一致具体包括：

视频地址获取模块，用于根据两则视频的播放地址，分别获取与所述播放地址对应的视频信息文件，例如m3u文件，并从所述视频信息文件里面获取两则视频的视频地址；

数据流获取模块，用于根据两则视频的视频地址，下载并获取二进制的数据流内容，并对数据流内容进行比较；

判断模块，用于当两个二进制的数据流内容一致，则确定两则视频的视频内容一致，否则为不同的视频内容。

所述的基于视频标题和内容的视频过滤系统，其中，所述判断模块中当两则视频的视频标题一样，进一步比较具有相同视频标题的视频的属性值，根据所述属性值确定过滤掉哪一则视频；其中，所述视频的属性值包括：视频的连接速度和视频的清晰度。

所述的基于视频标题和内容的视频过滤系统，其中，预先设定的匹配度阈值为60%。

相较于现有技术，本发明提供的基于视频标题和内容的视频过滤方法和系统，通过对视频的标题进行拆词，计算标题的相似度和比较视频流的相似度。并将标题的相似度和视频流的相似度作为组合条件进行视频过滤，达到视频去重的效果。从而可以对相似度高的视频新闻进行有效过滤，最大限度的去掉一些类似的视频新闻，让用户在有限时间内观看到的新闻都是当日的头条新闻，为用户带来更好的体验。

附图说明

图1为本发明提供的基于视频标题和内容的视频过滤方法的流程图。

图2为本发明提供的基于视频标题和内容的视频过滤系统的结构框图。

具体实施方式

本发明提供一种基于视频标题和内容的视频过滤方法和系统，为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

请参阅图1，其为本发明提供的基于视频标题和内容的视频过滤方法的流程图。如图所示，所述基于视频标题和内容的视频过滤方法包括：

S100、获取两则视频；

S200、比较两则视频的视频标题是否一样，若是则过滤掉其中一则视频，否则对两则视频的视频标题进行拆词处理；

S300、判断拆词后的视频标题的匹配度是否超过预先设定的匹配度阈值，若是则过滤掉其中一则视频，否则比较两则视频的视频内容是否一致，若一致则过滤掉其中一则视频。

在步骤S100至S300只是其中两则视频进行比较的一个过程，当具有多个相同视频内容的多个视频源时候，分别进行两两比较，直到保留最后一则或者数则视频即可。

下面分别针对上述步骤进行描述：

步骤S100为获取两则视频。在本实施例中，以视频新闻为例，选取两则视频新闻。视频新闻的信息包括视频新闻的视频标题和视频内容。为了最大限度的去掉类似的视频新闻，我们从视频新闻的视频标题和视频内容入手进行过滤。

步骤S200为比较两则视频的视频标题是否一样，若是则过滤掉其中一则视频，否则对两则视频的视频标题进行拆词处理。具体来说，我们直接通过标题比较去重：若两则视频新闻的标题完全一样，则过滤掉其中一帧。否则我们即对视频标题进行拆词处理。在本实施例中，所述拆词方法为使可用开源项目lucene的词库(在JAVA程序代码引入程序包lucene-core-2.4.1.jar，使用智能中文分词模块SmartChineseAnalyzer即可)进行拆词，比如：杰出人物（如：李东生）、明星（如：刘德华）等检索量大的词，按照正向拆分法对新闻标题进行切分。（正向拆分法：从前往后匹配。如："湖南大学堂屋顶"，正向拆分为"湖南大学堂屋顶"。）

下面通过一个具体的例子来说明：有三个标题如下：

第一标题：北京至南宁高铁贯通全程仅需10小时”

进行拆词后变成:[北京,南宁,高铁,全程,10,小时]；

第二标题：北京至南宁全程贯通高铁啦！只要10小时[凤凰新闻网]

进行拆词后变成: [北京,南宁,全程,贯通,高铁,10,小时,凤凰,新闻, 网]；

第三标题：衡柳高铁和柳南客运专线贯通南宁到北京全程高铁10小时

进行拆词后变成: [衡柳,高铁,和,柳南,客运,专线,贯通,南宁,北京,全程,高铁,10,小时]；

通过拆词匹配，我们可以看出：第一标题和第二、第三标题的匹配程度达到100%；第二标题和第三标题匹配程度(例如可以采用各个词匹配计数的方式衡量文字匹配相同的程度)达到85%。

进一步地，当两则视频的视频标题是一致时，需要过滤掉其中一则视频，保留其中一则视频。

为了保证保留的视频是最佳的（尤其是当视频个数较多时）视频。本发明的基于视频标题和内容的视频过滤方法进一步比较具有相同视频标题的视频的属性值，其中，所述视频的属性值包括：视频的连接速度、视频的清晰度等。每一属性具有不同的权重（所述权重的大小可以根据客户需要来设定），通过比较所述具有相同视频标题的视频的属性值，来确保保留下的视频是最佳的。举例来说，当两则视频的视频标题是一致的，那么我们先来判断两则视频的连接速度，当发现一则视频无法链接播放时，则过滤掉。若两则视频的连接速度相同，我们进一步比较两则视频的清晰度，过滤掉清晰度比较差的一则视频。当所有属性相同时，可随机滤掉一则视频。

步骤S300 为判断拆词后的视频标题的匹配度是否超过预先设定的匹配度阈值（在本实施例中，所述匹配度的阈值为60%），若是则过滤掉其中一则视频，否则比较两则视频的视频内容是否一致，若一致则过滤掉其中一则视频。具体来说，预先设定一匹配度阈值，将拆词后的视频标题的匹配度与预先设定的匹配度阈值进行比较：若拆词后的视频标题的匹配度超过预先设定的匹配度阈值，则判断两则视频的视频标题基本一致，过滤掉其中一条视频，否则再对视频内容进行判断：比较两则视频的视频内容是否一致，若一致则过滤掉其中一则视频。

在本实施例中，比较两则视频的视频内容是否一致具体包括：

S110、根据两则视频的播放地址，分别获取与所述播放地址对应的视频信息文件，例如m3u文件，并从所述视频信息文件里面获取两则视频的视频地址；

其中，所述视频的播放地址为提供视频内容的地址，然后，根据所述播放地址对应的视频文件内容里面获取视频地址信息。一般来说，做视频推荐类的应用时候，使用的视频可以从优酷及土豆上获取的，其实它们也提供了开放的API，可以获取视频地址以及视频的多个标签，视频的同类视频推荐，视频同类目下的视频等，使用者可以直接去申请。

在本实施例中，所述播放地址优选为m3u8地址，其也是一种M3U地址，只是它的编码格式是UTF-8格式。m3u8地址是用来流播放，直播流或者点播形式，目的是实现时实性及保密性它会不让你获取它的视频所在地址。M3U本质上说不是音频文件,它是音频文件的列表文件,是纯文本文件。根据两则视频的m3u8地址，分别获取与所述m3u8地址对应的m3u8文件内容，并从所述文件内容里面获取两则视频的视频地址。

S120、根据两则视频的视频地址，下载并获取二进制的数据流（也称视频流）内容，并对数据流内容进行比较；以JAVA部分代码为例说明如下：

private boolean contentEquals(String address1, String address2) {

InputStream is1 = null;

InputStream is2 = null;

URLConnection conn1 = null;

URLConnection conn2 = null;

try {

URL url1 = new URL(address1);

conn1 = url1.openConnection();

conn1.setConnectTimeout(5000);

is1 = conn1.getInputStream();

URL url2 = new URL(address2);

conn2 = url2.openConnection();

conn2.setConnectTimeout(5000);

is2 = conn2.getInputStream();

if (IOUtils.contentEquals(is1, is2))

return false;

} catch (MalformedURLException e) {

e.printStackTrace();

} catch (IOException e) {

e.printStackTrace();

} finally {

IOUtils.close(conn1);

IOUtils.close(conn2);

IOUtils.closeQuietly(is1);

IOUtils.closeQuietly(is2);

}

return true;

}

上述源码描述的是通过两则视频的视频地址，下载并获取二进制的数据流（也称视频流）内容，并对数据流内容进行比较的过程。

S130、若两个二进制的数据流内容一致，则确定两则视频的视频内容一致，否则为不同的视频内容。

举例说明：

第一视频的m3u8地址、视频地址和视频流（即二进制的数据流）内容分别如下：

a1) m3u8地址（即播放地址，下同）：

http://v.youku.com/player/getRealM3U8/vid/XNTU0NjIxNjI0/type/mp4/video.m3u8

b1) 视频地址：

http://183.60.145.137/6573AB247393F81012EB6E2127/0300020200518BD10B0893076443B2EAA5E66C-C04F-E90B-EA30-8E2670F78AF2.flv.ts?ts_start=0&ts_end=6&ts_seg_no=0&ts_keyframe=1

c1) 视频流内容：

[-128, 0, 0, 1, 101, -120, -124, 1, -1, -96, -12, -80, 5, -21, 86, 46, -85, 64, -107, -20, 121, -81, 16, 96, 106, -30, 95, -31, 106, 92, -128, 104, -30, -64, -103, 20, -9, -3, 67, -31, -44, -80, -7, 115, -65, -109, -128, 104, -51, -74, -77, 4, -2, 71, … …]。

第二视频的m3u8地址、视频地址和视频流（即二进制的数据流）内容分别如下：

a2) m3u8地址：

http://v.youku.com/player/getRealM3U8/vid/XNTU1OTIwNDMy/type/mp4/video.m3u8

b2) 视频地址：

http://119.147.103.25/6573C8B07C93381DEC31ED2F6C/0300020200518F9744860308FFF8B98B79AC98-7C6E-1222-F1D8-BCAFA9757802.flv.ts?ts_start=0&ts_end=6&ts_seg_no=0&ts_keyframe=1

c2) 视频流内容：

[-128, 0, 0, 1, 101, -120, -124, 1, -1, -96, -28, -116, 12, 55, -110, -71, 76, -46, -106, -52, -23, -56, -72, 65, -65, 38, -64, 99, 56, -6, -47, -36, -67, 52, -36, 98, 111, 106, -102, 115, 18, -107, 90, 79, 29, 14, 18, -4, 57, -11, 18, -5, -77, -66, 73… …]。

通过对第一视频和第二视频的两个视频流内容的比较，可以确定两个两个视频流内容不一致，从而确定第一视频和第二视频为不同的视频。

值得说明的是，这里比较的两个则视频流的内容指的是比较两则视频的相同播放位置，例如文件头或者文件尾部的二进制码流数据，其针对的是拷贝来源相同，压制格式相同的视频。当其压缩比不相同时候，可通过其他方式，例如通过图像分析的方法对两则视频的图像进行分析，并得出是否为同一内容的视频的判断。

本发明还相应提供一种基于视频标题和内容的视频过滤系统，如图2所示，其包括：

提取单元100，用于获取两则视频；

第一过滤单元200，用于比较两则视频的视频标题是否一样，若是则过滤掉其中一则视频，否则对两则视频的视频标题进行拆词处理；

第二过滤单元300，用于判断拆词后的视频标题的匹配度是否超过预先设定的匹配度阈值，若是则过滤掉其中一则视频，否则比较两则视频的视频内容是否一致，若一致则过滤掉其中一则视频。

进一步地，所述的基于视频标题和内容的视频过滤系统中，所述第一过滤单元中对两则视频的视频标题进行拆词处理具体包括：

使用开源项目lucene的词库按照正向拆分法对视频标题进行切分。

进一步地，所述的基于视频标题和内容的视频过滤系统中，所述第一过滤单元中过滤掉其中一则视频具体包括：比较模块，用于进一步比较两则视频的属性值，根据所述属性值确定过滤掉哪一则视频；其中，所述视频的属性值包括：视频的连接速度和视频的清晰度。

进一步地，所述的基于视频标题和内容的视频过滤系统中，所述第二过滤单元中比较两则视频的视频内容是否一致具体包括：

进一步地，所述的基于视频标题和内容的视频过滤系统中，所述数据流获取模块中对数据流内容进行比较具体为使用开发语言提供的处理数据流的类库的方法对数据流内容进行读取并比较。比如，在本实施例中，使可用开源项目lucene的词库(在JAVA程序代码引入程序包lucene-core-2.4.1.jar，使用智能中文分词模块SmartChineseAnalyzer即可)进行拆词。

这里获取两则视频相同位置的二进制的数据流进行比较，值得说明的是，一般点播的视频文件最先加载的为视频文件头的内容，一般可比较文件头即可。

进一步地，所述的基于视频标题和内容的视频过滤系统中，预先设定的匹配度阈值为60%。

具体来说，所述匹配度阈值即为临界值，意思是在本发明的基于视频标题和内容的视频过滤系统中，若判断拆词后的视频标题之间的匹配度达到或者超过60%时，即认为拆词后的视频标题是一样的，过滤掉其中一则视频。

上述各个部分的功能都已经在上述方法中进行了详细介绍，这里就不再冗述了。

综上所述，本发明提供的基于视频标题和内容的视频过滤方法和系统，通过对视频的标题进行拆词，计算标题的相似度和比较视频流的相似度。并将标题的相似度和视频流的相似度作为组合条件进行视频过滤，达到视频去重的效果。从而可以对相似度高的视频新闻进行有效过滤，最大限度的去掉一些类似的视频新闻，让用户在有限时间内观看到的新闻都是当日的头条新闻，为用户带来更好的体验。

可以理解的是，对本领域普通技术人员来说，可以根据本发明的技术方案及其发明构思加以等同替换或改变，而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于视频标题和内容的视频过滤方法，其特征在于，包括：

获取两则视频；

2.根据权利要求1所述的基于视频标题和内容的视频过滤方法，其特征在于，所述过滤掉其中一则视频步骤中，包括：

3.根据权利要求1所述的基于视频标题和内容的视频过滤方法，其特征在于，比较两则视频的视频内容是否一致具体包括：

A、根据两则视频的播放地址，分别获取与所述播放地址对应的视频信息文件，并从所述视频信息文件里面获取两则视频的视频地址；

4.根据权利要求3所述的基于视频标题和内容的视频过滤方法，其特征在于，所述步骤B中对数据流内容进行比较具体为使用开发语言提供的处理数据流的类库的方法对数据流内容进行读取并比较。

5.根据权利要求1所述的基于视频标题和内容的视频过滤方法，其特征在于，预先设定的匹配度阈值为60%。

6.一种基于视频标题和内容的视频过滤系统，其特征在于，包括：

提取单元，用于获取两则视频；

7.根据权利要求6所述的基于视频标题和内容的视频过滤系统，其特征在于，所述第一过滤单元中过滤掉其中一则视频具体包括：

8.根据权利要求6所述的基于视频标题和内容的视频过滤系统，其特征在于，所述第二过滤单元中比较两则视频的视频内容是否一致具体包括：

视频地址获取模块，用于根据两则视频的播放地址，分别获取与所述播放地址对应的视频信息文件，并从所述视频信息文件里面获取两则视频的视频地址；

9.根据权利要求8所述的基于视频标题和内容的视频过滤系统，其特征在于，所述数据流获取模块中对数据流内容进行比较具体为使用开发语言提供的处理数据流的类库的方法对数据流内容进行读取并比较。

10.根据权利要求6所述的基于视频标题和内容的视频过滤系统，其特征在于，预先设定的匹配度阈值为60%。