CN102622454A - 一种基于文本分析的面向视频网站的互联网视频搜索方法 - Google Patents

一种基于文本分析的面向视频网站的互联网视频搜索方法 Download PDF

Info

Publication number
CN102622454A
CN102622454A CN2012101195578A CN201210119557A CN102622454A CN 102622454 A CN102622454 A CN 102622454A CN 2012101195578 A CN2012101195578 A CN 2012101195578A CN 201210119557 A CN201210119557 A CN 201210119557A CN 102622454 A CN102622454 A CN 102622454A
Authority
CN
China
Prior art keywords
video
address
search
url
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012101195578A
Other languages
English (en)
Other versions
CN102622454B (zh
Inventor
姜明
岑沛斯
王兴起
胡宏宇
郭利刚
沈幸峰
祁磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yuanchuan Xinye Technology Co ltd
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201210119557.8A priority Critical patent/CN102622454B/zh
Publication of CN102622454A publication Critical patent/CN102622454A/zh
Application granted granted Critical
Publication of CN102622454B publication Critical patent/CN102622454B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于文本分析的面向视频网站的互联网视频搜索方法。已有的搜索方法关注重于文字上的搜索,用户搜索到的往往是一篇文章,或者是别人的博客内容。本发明首先建立搜索词库,分析原始URL的源代码,把新得到的URL链接及文字信息保存到队列中。其次分析新得到的URL链接及其文字信息,把不符合下载要求的地址去除掉,避免下载多余的视频;然后根据得到的URL链接下载视频,并把视频保存在本地。最后每隔一定时间,对已有视频信息进行增量更新。本发明是面向视频的搜索方法,面向的是视频网站上的视频,不涉及文字方面的搜索,使用户可以专于视频上的搜索,而不被互联网上庞大的文字信息所困扰。

Description

一种基于文本分析的面向视频网站的互联网视频搜索方法
技术领域
本发明涉及一种互联网视频搜索方法,尤其是面向专业视频网站的视频搜索方法。
背景技术
搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。
搜索引擎起源于20世纪90年代。早期的搜索引擎以雅虎为代表,采用网站分类目录查询的方式。网站分类目录由人工整理维护,精选互联网上的优秀网站,并简要描述,分类放置到不同目录下。用户查询时,通过一层层的点击来查找自己想找的网站。随着Google为代表的新一代搜索引擎的出现,使搜索引擎的各个方面都有了很大的变化。它使用程序自动抓取资料取代了以往的人工分类方式,使查询更加快捷。它在收录范围,数据库更新,检索信息能力,查全率,查准率,响应时间上等性能上有了质的提高。用户可以很方便的查找到自己想要的内容。
然而已有的搜索引擎注重于文字上的搜索,用户搜索到的往往是一篇文章,或者是别人的博客内容。搜到的视频内容往往很少,符合自己想要的结果则更少。大型视频网站由于发展的需要,大部分视频是当前的热播电视剧,电影,娱乐,体育比赛等符合大众娱乐要求的视频,一些特定专业的视频则往往很难找,用户花费大量时间可能只能找到少量自己需要的视频。
发明内容
本发明针对现有技术的不足,提供一种基于文本分析的面向视频网站的互联网视频搜索方法。
本发明方法具体包括以下步骤:
(1)建立搜索词库。
(2)分析原始URL的源代码,把新得到的URL链接及文字信息保存到队列中。
(3)分析新得到的URL链接及其文字信息,把不符合下载要求的地址去除掉,避免下载多余的视频。
(4)根据得到的URL链接下载视频,并把视频保存在本地。
(5)每隔一定时间,对已有视频信息进行增量更新。
本发明的有益效果:
1.本发明是面向视频的搜索方法,面向的是视频网站上的视频,不涉及文字方面的搜索,使用户可以专于视频上的搜索,而不被互联网上庞大的文字信息所困扰。
2.本发明是基于语义分析的视频搜索方法,能根据语义分析的结果来搜索需要的视频,具有准确率高,搜索面广,更新快的特点。
附图说明
图1为搜索词库数据表;
图2 为分词流程图;
图3为已下载视频。
具体实施方式
以下结合附图对本发明作进一步说明。
首先,建立一个搜索词库,在数据库中建立包括id(int),key(varchar),time(varchar)3列的数据表,用来保存想要内容的文字信息,这里以研究生这个词为例,用于与后面所获网页中的文字信息进行比较,将研究生这个词存入explorewords表中,结果如图1。
其次,输入我们想要搜索的优酷视频网站的网址www.youku.com。获得其源代码,部分源代码如下:
<!DOCTYPE html>
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
<meta http-equiv="Content-Language" content="zh-CN"/>
<meta name="title" content="优酷-中国第一视频网站,提供视频播放,视频发布,视频搜索" />
<meta name="keywords" content="视频,视频分享,视频搜索,视频播放,优酷视频" />
<meta name="description" content="优酷-中国第一视频网站,提供视频播放,视频发布,视频搜索 - 视频服务平台,提供视频播放,视频发布,视频搜索,视频分享 - 优酷视频" />
<link type="application/rss+xml" rel="alternate" title="优酷视频-推荐视频" href="/index/rss_cool_v" />
<link rel="search" type="application/opensearchdescription+xml" title="优酷视频搜索" 
href="http://desktop.youku.com/opensearch/youku.xml">
<link href="http://static.youku.com/v1.0.0756/index/css/youku.css" type="text/css" rel="stylesheet" />
<link  rel="Shortcut  Icon" 
href="http://static.youku.com/v1.0.0756/index/img/favicon.ico" />
<meta name="application-name" content="优酷网" />
<meta name="msapplication-starturl" content="http://www.youku.com/" />
<meta name="msapplication-task" content="name=上传视频;action-uri=http://www.youku.com/v/upload/;icon-uri=http://www.youku.com/favicon.ico" />
<meta name="msapplication-task" content="name=我的点播单;action-uri=http://www.youku.com/v_showlist/type_99.html#playlist;icon-uri=http://www.youku.com/favicon.ico" />
<meta name="msapplication-task" content="name=我的优盘;action-uri=http://u.youku.com/my/;icon-uri=http://www.youku.com/favicon.ico" />。分析获得其中的链接地址及文字信息,设置一个先进先出的队列,将链接地址及文字信息保存到队列中。
接着开启线程,设置其最大并发数为20。并发对队列中的链接地址和文字信息进行分析,部分链接地址如下
http://news.youku.com/society/society/_page47334_2.html
2012-3-16 15:39:49.953   http://news.youku.com/society/society/_page47334_3.html
2012-3-16 15:39:54.953   http://news.youku.com/society/society/_page47334_4.html
2012-3-16 15:39:59.953   http://news.youku.com/society/society/_page47334_5.html
2012-3-16 15:40:4.968     http://news.youku.com/society/society/_page47334_6.html
2012-3-16 15:40:9.968     http://news.youku.com/society/society/_page47334_7.html
2012-3-16 15:40:14.968   http://news.youku.com/society/society/_page47334_8.html
2012-3-16 15:40:19.968   http://news.youku.com/society/society/_page47334_9.html
2012-3-16 15:40:24.968   http://news.youku.com/society/society/_page47334_10.html
2012-3-16 15:40:29.968   http://news.youku.com/society/society/_page47334_538.html
2012-3-16 15:40:34.968。
每个线程先分析获得的链接地址是否是优酷网的地址,若不是,则放弃,若是,则分析此地址所在网页的源代码,将新获得的的链接地址及文字信息存入队列中。接着分析其文字信息,先对其分词,分词流程图见图2这里以文字“千万别念研究生,年轻人最宝贵的是选择,郎咸平为大家讲解”为例,如果在自动分词词典(根据搜狗词库整理而成)中进行匹配,只要匹配成功就切分出来,那么这句话可能被切分成“千万\ 别念 \研究生 ,\年轻人 \最 \宝贵的 \是 \选择 ,\ 郎咸平 \为 \大家 \讲解”,该结果中一共包含12个词。但是,为了实现最大匹配,我们将把“最宝贵的”作为一个整体的词进行处理。因此就要求将上面这句话切分为“千万\ 别念 \研究生 , \年轻人 \最宝贵的 \是 \选择 ,\ 郎咸平 \为 \大家 \讲解“,一共是11个词,根据最大匹配的原则,我们选择第二种分词结果,将分词结果保存到一个临时队列中。
将所得分词结果与搜索词库进行比较,搜索词库中存在研究生这个词,则将此链接地址及文字描述信息保存在数据库中,并根据地址下载此视频到指定地址,同时将标题,视频长度,评论数,点击量,保存地址信息保存到数据库中。并发线程运行一段时间后所下载的视频如图3。
最后,需要进行增量更新,每隔一星期对数据库中已存在的地址再次进行分析并取出其评论数及点击量,若其与数据库中得到的评论数及点击量一致,则不更新,若其与刚分析得到的评论数及点击量不一致,则将新的评论数及点击量更新到数据库中。

Claims (6)

1. 一种基于文本分析的面向视频网站的互联网视频搜索方法,通过对视频文字信息的分析,搜索下载符合要求的视频,其特征包括如下步骤:
(1)建立搜索词库;
(2)分析原始URL的源代码,把新得到的URL链接及文字信息保存到队列中;
(3)分析新得到的URL链接及其文字信息,把不符合下载要求的地址去除掉,避免下载多余的视频;
(4)根据得到的URL链接下载视频,并把视频保存在本地;
(5)每隔一定时间,对已有视频信息进行增量更新。
2.根据权利要求1所述的一种基于文本分析的面向视频网站的互联网视频搜索方法,其特征是:建立搜索词库包括如下步骤:
1)在数据库中建立包括id(int),key(varchar),time(varchar)3列的数据表,其中id(int)表示某个词在数据库中排列的序列号,key(varchar)表示某个词的具体含义,time(varchar)表示某个词存入数据库的时间,id(int)和key(varchar)列为联合主键;
2)将需要搜索的词存入此数据库中,用于结果比对。
3.根据权利要求1所述的一种基于文本分析的面向视频网站的互联网视频搜索方法,其特征是:分析原始URL源代码包括如下步骤:
1)设置一个用来保存URL及文字信息的队列,队列的特点是先进先出,先保存的信息先分析;
2)提取源代码中的新URL链接地址及其文字信息,将其保存到队列中。
4.根据权利要求1所述的一种基于文本分析的面向视频网站的互联网视频搜索方法,其特征是:分析队列中URL链接地址及文字信息的步骤如下:
1)设置一个最大线程并发数,开启这些线程,线程依次访问队列中的信息;
2)线程先对队列中取出的URL地址进行分析,判断此地址是否属于此网站的地址,若此地址不属于此网站的地址,则不作处理;若此地址属于此网站的地址,则分析此地址的源代码,将获得新的链接地址及文字信息,将其保存到队列中;
3)对符合要求的URL的文字进行分析,采用正向减字最大匹配算法,具体是:假设自动分词词典中的最长词条所含汉字个数为m,则取被处理文字中当前字符串中的前m个字符作为匹配字段,查找自动分词词典,如自动分词词典中存在这样的一个长度为m的词,则匹配成功,匹配字段作为一个词被切分出来;如自动分词词典中找不到这样的一个长度为m的字词,则将匹配字段去掉最后一个汉字,剩下的m-1个字符作为新的匹配字段,进行新的匹配,如此反复,直至切分出一个词,完成一轮匹配切分出一个词,再按上述步骤进行,直到切分出所有的词为止;得到分词结果并将分词结果保存到一个临时队列中;
4)用分词所得到的结果去匹配已有的搜索词库,如果搜索词库中存在此结果,则将此链接地址及文字描述信息保存在数据库中,如果不存在此结果,则不保存到数据库。
5.根据权利要求1所述的一种基于文本分析的面向视频网站的互联网视频搜索方法,其特征是:下载视频并把视频保存的步骤如下:
1)根据URL地址得到视频的下载地址,开启线程根据下载地址下载视频;
2)将下载后的视频保存在本地,并将其标题,视频长度,评论数,点击量保存地址信息保存到数据库中。
6.根据权利要求1所述的一种基于文本分析的面向视频网站的互联网视频搜索方法,其特征是:对视频信息进行增量更新的步骤如下:
1)取出数据库中已保存的URL链接地址,获得其对应视频的点击量,评论数信息;
2)根据点击量、评论数信息,与获得的最新信息进行比较,若有变化,将最新的信息更新到数据库中,若没有变化,则不进行更新。
CN201210119557.8A 2012-04-23 2012-04-23 一种基于文本分析的面向视频网站的互联网视频搜索方法 Active CN102622454B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210119557.8A CN102622454B (zh) 2012-04-23 2012-04-23 一种基于文本分析的面向视频网站的互联网视频搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210119557.8A CN102622454B (zh) 2012-04-23 2012-04-23 一种基于文本分析的面向视频网站的互联网视频搜索方法

Publications (2)

Publication Number Publication Date
CN102622454A true CN102622454A (zh) 2012-08-01
CN102622454B CN102622454B (zh) 2014-05-28

Family

ID=46562372

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210119557.8A Active CN102622454B (zh) 2012-04-23 2012-04-23 一种基于文本分析的面向视频网站的互联网视频搜索方法

Country Status (1)

Country Link
CN (1) CN102622454B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108347460A (zh) * 2017-01-25 2018-07-31 华为技术有限公司 资源访问方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020188621A1 (en) * 2000-08-28 2002-12-12 Emotion Inc. Method and apparatus for digital media management, retrieval, and collaboration
CN101599089A (zh) * 2009-07-17 2009-12-09 中国科学技术大学 视频服务网站内容更新信息的自动搜索与抽取系统及方法
CN101694658A (zh) * 2009-10-20 2010-04-14 浙江大学 基于新闻去重的网页爬虫的构建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020188621A1 (en) * 2000-08-28 2002-12-12 Emotion Inc. Method and apparatus for digital media management, retrieval, and collaboration
CN101599089A (zh) * 2009-07-17 2009-12-09 中国科学技术大学 视频服务网站内容更新信息的自动搜索与抽取系统及方法
CN101694658A (zh) * 2009-10-20 2010-04-14 浙江大学 基于新闻去重的网页爬虫的构建方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108347460A (zh) * 2017-01-25 2018-07-31 华为技术有限公司 资源访问方法及装置
WO2018137528A1 (zh) * 2017-01-25 2018-08-02 华为技术有限公司 资源访问方法及装置
CN108347460B (zh) * 2017-01-25 2020-04-14 华为技术有限公司 资源访问方法及装置

Also Published As

Publication number Publication date
CN102622454B (zh) 2014-05-28

Similar Documents

Publication Publication Date Title
US8312022B2 (en) Search engine optimization
CN100405371C (zh) 一种提取新词的方法和系统
CN103365924B (zh) 一种互联网信息搜索的方法、装置和终端
Trampuš et al. Internals of an aggregated web news feed
CN100442290C (zh) 访问标识索引系统及访问标识索引库生成方法
US20080104034A1 (en) Method For Scoring Changes to a Webpage
WO2008098502A1 (fr) Procédé et dispositif destinés à créer un index et procédé et système de récupération
CN101441636A (zh) 一种基于知识库的医院信息搜索引擎及系统
US20070033229A1 (en) System and method for indexing structured and unstructured audio content
CN102737133B (zh) 一种实时搜索的方法
TW201319842A (zh) 搜尋方法、搜尋裝置及搜尋引擎系統
CN109857898A (zh) 一种海量数字音频指纹存储与检索的方法及系统
US7849070B2 (en) System and method for dynamically ranking items of audio content
CN104715064A (zh) 一种实现在网页上标注关键词的方法和服务器
CN101604324A (zh) 一种基于元搜索的视频服务网站的搜索方法及系统
CN104123366A (zh) 一种搜索方法及搜索服务器
JP2011192102A (ja) サマリ作成装置、サマリ作成方法及びプログラム
Huurdeman et al. Lost but not forgotten: finding pages on the unarchived web
JP7395377B2 (ja) コンテンツ検索方法、装置、機器、および記憶媒体
Klein et al. Evaluating methods to rediscover missing web pages from the web infrastructure
Davison et al. Finding Relevant Website Queries.
KR100671077B1 (ko) 페이지 묶음을 이용한 정보 검색 서비스 제공 서버, 방법및 시스템
CN105389330A (zh) 一种跨社区开源资源匹配关联方法
US8005827B2 (en) System and method for accessing preferred provider of audio content
CN102622454B (zh) 一种基于文本分析的面向视频网站的互联网视频搜索方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20191014

Address after: 310000 23 / F, Shimao center, 857 Xincheng Road, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Hangzhou Yuanchuan New Technology Co.,Ltd.

Address before: Hangzhou City, Zhejiang province 310018 Xiasha Higher Education Park No. 2 street

Patentee before: HANGZHOU DIANZI University

TR01 Transfer of patent right
CP03 Change of name, title or address

Address after: Room 23011, Yuejiang commercial center, No. 857, Xincheng Road, Puyan street, Binjiang District, Hangzhou, Zhejiang 311611

Patentee after: Hangzhou Yuanchuan Xinye Technology Co.,Ltd.

Address before: 310000 floor 23, Shimao center, No. 857, Xincheng Road, Binjiang District, Hangzhou City, Zhejiang Province

Patentee before: Hangzhou Yuanchuan New Technology Co.,Ltd.

CP03 Change of name, title or address
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Text Analysis Based Internet Video Search Method for Video Websites

Effective date of registration: 20230509

Granted publication date: 20140528

Pledgee: China Everbright Bank Limited by Share Ltd. Hangzhou branch

Pledgor: Hangzhou Yuanchuan Xinye Technology Co.,Ltd.

Registration number: Y2023980040155

PE01 Entry into force of the registration of the contract for pledge of patent right