CN101599089B - 视频服务网站内容更新信息的自动搜索与抽取系统及方法 - Google Patents
视频服务网站内容更新信息的自动搜索与抽取系统及方法 Download PDFInfo
- Publication number
- CN101599089B CN101599089B CN2009101606268A CN200910160626A CN101599089B CN 101599089 B CN101599089 B CN 101599089B CN 2009101606268 A CN2009101606268 A CN 2009101606268A CN 200910160626 A CN200910160626 A CN 200910160626A CN 101599089 B CN101599089 B CN 101599089B
- Authority
- CN
- China
- Prior art keywords
- module
- search
- url
- xpath
- subtree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Claims (13)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009101606268A CN101599089B (zh) | 2009-07-17 | 2009-07-17 | 视频服务网站内容更新信息的自动搜索与抽取系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009101606268A CN101599089B (zh) | 2009-07-17 | 2009-07-17 | 视频服务网站内容更新信息的自动搜索与抽取系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101599089A CN101599089A (zh) | 2009-12-09 |
CN101599089B true CN101599089B (zh) | 2011-05-04 |
Family
ID=41420533
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009101606268A Expired - Fee Related CN101599089B (zh) | 2009-07-17 | 2009-07-17 | 视频服务网站内容更新信息的自动搜索与抽取系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101599089B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101853300B (zh) * | 2010-05-26 | 2013-01-30 | 中国科学技术大学 | 一种视频下载服务网站的识别、评估方法及系统 |
CN101944111B (zh) * | 2010-09-09 | 2012-05-23 | 中国科学技术大学 | 新闻视频的搜索方法和装置 |
CN101937469B (zh) * | 2010-09-15 | 2012-09-05 | 任子行网络技术股份有限公司 | 视频网站的信息抓取方法 |
CN102117320B (zh) * | 2011-01-11 | 2012-07-25 | 百度在线网络技术(北京)有限公司 | 一种结构化数据搜索的方法和装置 |
CN102622454B (zh) * | 2012-04-23 | 2014-05-28 | 杭州电子科技大学 | 一种基于文本分析的面向视频网站的互联网视频搜索方法 |
CN102902784B (zh) * | 2012-09-29 | 2016-03-02 | 北京奇虎科技有限公司 | 网页分类存储系统及方法 |
CN103036969B (zh) * | 2012-12-10 | 2017-03-15 | 北京奇虎科技有限公司 | 用于提供文件下载地址的管理设备及方法 |
CN104182429B (zh) * | 2013-05-28 | 2017-08-25 | 腾讯科技(深圳)有限公司 | 网页处理方法和终端 |
WO2015058331A1 (en) * | 2013-10-21 | 2015-04-30 | Hewlett-Packard Development Company, L.P. | Extract data from xml stream |
CN104933099B (zh) * | 2015-05-28 | 2020-10-16 | 百度在线网络技术(北京)有限公司 | 一种为用户提供目标搜索结果的方法与装置 |
CN105912706A (zh) * | 2016-04-27 | 2016-08-31 | 郑州悉知信息科技股份有限公司 | 提升搜索引擎排名的方法和装置 |
CN106940719B (zh) * | 2017-03-14 | 2020-09-08 | 福建中金在线信息科技有限公司 | 一种页面跳转方法及装置 |
CN107391573A (zh) * | 2017-06-19 | 2017-11-24 | 上海斐讯数据通信技术有限公司 | 一种基于信息重组的数据信息提取方法和系统 |
CN109783728B (zh) * | 2018-12-29 | 2021-10-19 | 安徽听见科技有限公司 | 页面爬虫规则更新方法及系统 |
CN111966880A (zh) * | 2020-08-17 | 2020-11-20 | 江苏百达智慧网络科技有限公司 | 可视化网站内容采集方法和系统 |
CN113836350B (zh) * | 2021-09-23 | 2024-02-27 | 深圳绿米联创科技有限公司 | 录像视频检索方法、系统、装置、存储介质及电子设备 |
CN116701791B (zh) * | 2023-07-20 | 2023-10-20 | 国信蓝桥教育科技股份有限公司 | 基于人工智能的课程推荐方法及系统 |
-
2009
- 2009-07-17 CN CN2009101606268A patent/CN101599089B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN101599089A (zh) | 2009-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101599089B (zh) | 视频服务网站内容更新信息的自动搜索与抽取系统及方法 | |
CN102930059B (zh) | 一种聚焦爬虫的设计方法 | |
US20090063538A1 (en) | Method for normalizing dynamic urls of web pages through hierarchical organization of urls from a web site | |
CN1924858B (zh) | 一种获取新词的方法、装置以及一种输入法系统 | |
CN101246494B (zh) | 一种互联网网页转换方法、系统及设备 | |
CN103443786A (zh) | 识别网络浏览器中的并行布局的独立任务的机器学习方法 | |
CN101546341A (zh) | 信息推荐装置和信息推荐方法 | |
CN101802776A (zh) | 应用语义向量和关键字分析关联数据集的方法和装置 | |
US20060026496A1 (en) | Methods, apparatus and computer programs for characterizing web resources | |
CN102831199A (zh) | 建立兴趣模型的方法及装置 | |
CN101097578A (zh) | 一种网络资源检索方法及系统 | |
CN101908071A (zh) | 一种提高搜索引擎搜索效率的方法及其系统 | |
CN102065114A (zh) | 一种移动终端访问网页的方法及装置 | |
CN104239298A (zh) | 文本信息推荐方法、服务器、浏览器及系统 | |
CN101968819A (zh) | 面向广域网的音视频智能编目信息获取方法 | |
CN102207967B (zh) | 一种自动提供浏览器新插件的方法和系统 | |
Wu et al. | Searching services" on the web": A public web services discovery approach | |
CN103020123A (zh) | 一种搜索不良视频网站的方法 | |
CN104199893B (zh) | 一种快速将全媒体内容发布的系统和方法 | |
CN112699295A (zh) | 一种网页内容推荐方法、装置和计算机可读存储介质 | |
CN102117331A (zh) | 视频搜索方法及系统 | |
CN101727471A (zh) | 网站内容检索系统及方法 | |
CN102236713A (zh) | 一种数字电视交互服务页面的信息提取方法及其装置 | |
CN104778232B (zh) | 一种基于长查询的搜索结果的优化方法和装置 | |
CN108681571A (zh) | 基于Word2Vec的主题爬虫系统和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
ASS | Succession or assignment of patent right |
Owner name: ANHUI GUANGXING COMMUNICATION TECHNOLOGY CO., LTD. Free format text: FORMER OWNER: UNIVERSITY OF SCIENCE AND TECHNOLOGY OF CHINA Effective date: 20130820 |
|
C41 | Transfer of patent application or patent right or utility model | ||
COR | Change of bibliographic data |
Free format text: CORRECT: ADDRESS; FROM: 230026 HEFEI, ANHUI PROVINCE TO: 230001 HEFEI, ANHUI PROVINCE |
|
TR01 | Transfer of patent right |
Effective date of registration: 20130820 Address after: 230001, C4, 12, 800, Wangjiang Industrial Park, Wangjiang Road, Anhui, Hefei Patentee after: Anhui Guangxing Communication Technology Co., Ltd. Address before: 230026 Jinzhai Road, Anhui, China, No. 96, No. Patentee before: University of Science and Technology of China |
|
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110504 Termination date: 20200717 |
|
CF01 | Termination of patent right due to non-payment of annual fee |