CN102622454A

CN102622454A - 一种基于文本分析的面向视频网站的互联网视频搜索方法

Info

Publication number: CN102622454A
Application number: CN2012101195578A
Authority: CN
Inventors: 姜明; 岑沛斯; 王兴起; 胡宏宇; 郭利刚; 沈幸峰; 祁磊
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Yuanchuan Xinye Technology Co ltd
Priority date: 2012-04-23
Filing date: 2012-04-23
Publication date: 2012-08-01
Anticipated expiration: 2032-04-23
Also published as: CN102622454B

Abstract

本发明涉及一种基于文本分析的面向视频网站的互联网视频搜索方法。已有的搜索方法关注重于文字上的搜索，用户搜索到的往往是一篇文章，或者是别人的博客内容。本发明首先建立搜索词库，分析原始URL的源代码，把新得到的URL链接及文字信息保存到队列中。其次分析新得到的URL链接及其文字信息，把不符合下载要求的地址去除掉，避免下载多余的视频；然后根据得到的URL链接下载视频，并把视频保存在本地。最后每隔一定时间，对已有视频信息进行增量更新。本发明是面向视频的搜索方法，面向的是视频网站上的视频，不涉及文字方面的搜索，使用户可以专于视频上的搜索，而不被互联网上庞大的文字信息所困扰。

Description

一种基于文本分析的面向视频网站的互联网视频搜索方法

技术领域

本发明涉及一种互联网视频搜索方法，尤其是面向专业视频网站的视频搜索方法。

背景技术

搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息，在对信息进行组织和处理后，为用户提供检索服务，将用户检索相关的信息展示给用户的系统。

搜索引擎起源于20世纪90年代。早期的搜索引擎以雅虎为代表，采用网站分类目录查询的方式。网站分类目录由人工整理维护，精选互联网上的优秀网站，并简要描述，分类放置到不同目录下。用户查询时，通过一层层的点击来查找自己想找的网站。随着Google为代表的新一代搜索引擎的出现，使搜索引擎的各个方面都有了很大的变化。它使用程序自动抓取资料取代了以往的人工分类方式，使查询更加快捷。它在收录范围，数据库更新，检索信息能力，查全率，查准率，响应时间上等性能上有了质的提高。用户可以很方便的查找到自己想要的内容。

然而已有的搜索引擎注重于文字上的搜索，用户搜索到的往往是一篇文章，或者是别人的博客内容。搜到的视频内容往往很少，符合自己想要的结果则更少。大型视频网站由于发展的需要，大部分视频是当前的热播电视剧，电影，娱乐，体育比赛等符合大众娱乐要求的视频，一些特定专业的视频则往往很难找，用户花费大量时间可能只能找到少量自己需要的视频。

发明内容

本发明针对现有技术的不足，提供一种基于文本分析的面向视频网站的互联网视频搜索方法。

本发明方法具体包括以下步骤：

（1）建立搜索词库。

（2）分析原始URL的源代码，把新得到的URL链接及文字信息保存到队列中。

（3）分析新得到的URL链接及其文字信息，把不符合下载要求的地址去除掉，避免下载多余的视频。

（4）根据得到的URL链接下载视频，并把视频保存在本地。

（5）每隔一定时间，对已有视频信息进行增量更新。

本发明的有益效果：

1.本发明是面向视频的搜索方法，面向的是视频网站上的视频，不涉及文字方面的搜索，使用户可以专于视频上的搜索，而不被互联网上庞大的文字信息所困扰。

2.本发明是基于语义分析的视频搜索方法，能根据语义分析的结果来搜索需要的视频，具有准确率高，搜索面广，更新快的特点。

附图说明

图1为搜索词库数据表；

图2 为分词流程图；

图3为已下载视频。

具体实施方式

以下结合附图对本发明作进一步说明。

首先，建立一个搜索词库，在数据库中建立包括id（int），key(varchar)，time(varchar)3列的数据表，用来保存想要内容的文字信息，这里以研究生这个词为例，用于与后面所获网页中的文字信息进行比较,将研究生这个词存入explorewords表中，结果如图1。

其次，输入我们想要搜索的优酷视频网站的网址www.youku.com。获得其源代码，部分源代码如下：

<!DOCTYPE html>

<html>

<head>

href="http://desktop.youku.com/opensearch/youku.xml">

href="http://static.youku.com/v1.0.0756/index/img/favicon.ico" />

接着开启线程，设置其最大并发数为20。并发对队列中的链接地址和文字信息进行分析，部分链接地址如下

http://news.youku.com/society/society/_page47334_2.html

2012-3-16 15:39:49.953 http://news.youku.com/society/society/_page47334_3.html

2012-3-16 15:39:54.953 http://news.youku.com/society/society/_page47334_4.html

2012-3-16 15:39:59.953 http://news.youku.com/society/society/_page47334_5.html

2012-3-16 15:40:4.968 http://news.youku.com/society/society/_page47334_6.html

2012-3-16 15:40:9.968 http://news.youku.com/society/society/_page47334_7.html

2012-3-16 15:40:14.968 http://news.youku.com/society/society/_page47334_8.html

2012-3-16 15:40:19.968 http://news.youku.com/society/society/_page47334_9.html

2012-3-16 15:40:24.968 http://news.youku.com/society/society/_page47334_10.html

2012-3-16 15:40:29.968 http://news.youku.com/society/society/_page47334_538.html

2012-3-16 15:40:34.968。

每个线程先分析获得的链接地址是否是优酷网的地址，若不是，则放弃，若是，则分析此地址所在网页的源代码，将新获得的的链接地址及文字信息存入队列中。接着分析其文字信息，先对其分词，分词流程图见图2这里以文字“千万别念研究生，年轻人最宝贵的是选择，郎咸平为大家讲解”为例，如果在自动分词词典（根据搜狗词库整理而成）中进行匹配，只要匹配成功就切分出来，那么这句话可能被切分成“千万\ 别念 \研究生，\年轻人 \最 \宝贵的 \是 \选择，\ 郎咸平 \为 \大家 \讲解”，该结果中一共包含12个词。但是，为了实现最大匹配，我们将把“最宝贵的”作为一个整体的词进行处理。因此就要求将上面这句话切分为“千万\ 别念 \研究生， \年轻人 \最宝贵的 \是 \选择，\ 郎咸平 \为 \大家 \讲解“，一共是11个词，根据最大匹配的原则，我们选择第二种分词结果，将分词结果保存到一个临时队列中。

将所得分词结果与搜索词库进行比较，搜索词库中存在研究生这个词，则将此链接地址及文字描述信息保存在数据库中，并根据地址下载此视频到指定地址，同时将标题，视频长度，评论数，点击量，保存地址信息保存到数据库中。并发线程运行一段时间后所下载的视频如图3。

最后，需要进行增量更新，每隔一星期对数据库中已存在的地址再次进行分析并取出其评论数及点击量，若其与数据库中得到的评论数及点击量一致，则不更新，若其与刚分析得到的评论数及点击量不一致，则将新的评论数及点击量更新到数据库中。

Claims

1. 一种基于文本分析的面向视频网站的互联网视频搜索方法，通过对视频文字信息的分析，搜索下载符合要求的视频，其特征包括如下步骤：

（1）建立搜索词库；

（2）分析原始URL的源代码，把新得到的URL链接及文字信息保存到队列中；

（3）分析新得到的URL链接及其文字信息，把不符合下载要求的地址去除掉，避免下载多余的视频；

（4）根据得到的URL链接下载视频，并把视频保存在本地；

（5）每隔一定时间，对已有视频信息进行增量更新。

2.根据权利要求1所述的一种基于文本分析的面向视频网站的互联网视频搜索方法，其特征是：建立搜索词库包括如下步骤：

1）在数据库中建立包括id（int），key(varchar)，time(varchar)3列的数据表，其中id（int）表示某个词在数据库中排列的序列号，key(varchar)表示某个词的具体含义，time(varchar)表示某个词存入数据库的时间，id（int）和key(varchar)列为联合主键；

2）将需要搜索的词存入此数据库中，用于结果比对。

3.根据权利要求1所述的一种基于文本分析的面向视频网站的互联网视频搜索方法，其特征是：分析原始URL源代码包括如下步骤：

1）设置一个用来保存URL及文字信息的队列，队列的特点是先进先出，先保存的信息先分析；

2）提取源代码中的新URL链接地址及其文字信息，将其保存到队列中。

4.根据权利要求1所述的一种基于文本分析的面向视频网站的互联网视频搜索方法，其特征是：分析队列中URL链接地址及文字信息的步骤如下：

1）设置一个最大线程并发数，开启这些线程，线程依次访问队列中的信息；

2）线程先对队列中取出的URL地址进行分析，判断此地址是否属于此网站的地址，若此地址不属于此网站的地址，则不作处理；若此地址属于此网站的地址，则分析此地址的源代码，将获得新的链接地址及文字信息，将其保存到队列中；

3）对符合要求的URL的文字进行分析，采用正向减字最大匹配算法，具体是：假设自动分词词典中的最长词条所含汉字个数为m，则取被处理文字中当前字符串中的前m个字符作为匹配字段，查找自动分词词典，如自动分词词典中存在这样的一个长度为m的词，则匹配成功，匹配字段作为一个词被切分出来；如自动分词词典中找不到这样的一个长度为m的字词，则将匹配字段去掉最后一个汉字，剩下的m-1个字符作为新的匹配字段，进行新的匹配，如此反复，直至切分出一个词，完成一轮匹配切分出一个词，再按上述步骤进行，直到切分出所有的词为止；得到分词结果并将分词结果保存到一个临时队列中；

4）用分词所得到的结果去匹配已有的搜索词库，如果搜索词库中存在此结果，则将此链接地址及文字描述信息保存在数据库中，如果不存在此结果，则不保存到数据库。

5.根据权利要求1所述的一种基于文本分析的面向视频网站的互联网视频搜索方法，其特征是：下载视频并把视频保存的步骤如下：

1）根据URL地址得到视频的下载地址，开启线程根据下载地址下载视频；

2）将下载后的视频保存在本地，并将其标题，视频长度，评论数，点击量保存地址信息保存到数据库中。

6.根据权利要求1所述的一种基于文本分析的面向视频网站的互联网视频搜索方法，其特征是：对视频信息进行增量更新的步骤如下：

1）取出数据库中已保存的URL链接地址，获得其对应视频的点击量，评论数信息；

2）根据点击量、评论数信息，与获得的最新信息进行比较，若有变化，将最新的信息更新到数据库中，若没有变化，则不进行更新。