CN106776694A - 一种基于软件定义的网络分布式图片搜索引擎框架 - Google Patents
一种基于软件定义的网络分布式图片搜索引擎框架 Download PDFInfo
- Publication number
- CN106776694A CN106776694A CN201610996857.2A CN201610996857A CN106776694A CN 106776694 A CN106776694 A CN 106776694A CN 201610996857 A CN201610996857 A CN 201610996857A CN 106776694 A CN106776694 A CN 106776694A
- Authority
- CN
- China
- Prior art keywords
- url
- network
- search engine
- distribution type
- histogram
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Software Systems (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于软件定义的网络分布式图片搜索引擎用户界面、检索排名、缓存爬取以及服务器集群框架,主干网络可运行在OpenFlow上,并且通过网络链接分布在全球各地的数据中心,提高广域线路的利用率。
Description
技术领域
本发明涉及一种基于软件定义的网络分布式图片搜索引擎框架
背景技术
网络爬虫,也称网络蜘蛛、网络机器人,是一个自动提取网页的程序,它从因特网上下载网页,是搜索引擎的重要组成部分。网络爬虫利用标准的HTTP协议,根据超级链接和Web文档检索的方法遍历因特网信息空间。
目前搜索引擎只针对文本进行搜索,还不能对音乐、图片和视频等多媒体文件进行搜索,原因主要是多媒体数据量太大;如何索引多媒体文件;进而对处理过的多媒体文件检索。现在因特网上有大量的多媒体文件,特别是社交网站和多媒体分享的兴起,需要对多媒体文件进行精准检索。
因特网上有数千种不同的数据类型,HTTP给每种要通过Web传输的对象都打上了名为MIME类型的数据格式标签(常见图片格式:image/jpeg,image/gif)。统一资源定位符(URL)是资源标识符最常见的形式。URL描述了一台特定服务器上某资源的特定位置。元素文件(METAFILE)可提供有关页面的元信息,如针对搜索引擎和更新频度的描述和关键词,可针对元素的关键词进行索引。
UDP是OSI参考模型中一种无连接的传输层协议,它主要用于不要求分组顺序到达的传输中,分组传输顺序的检查与排序由应用层完成,提供面向事务的简单不可靠信息传送服务。网络图片可通过UDP进行下载,因为UDP具有TCP所望尘莫及的速度优势。
基于关键帧的网络视频格式文件摘要提取,计算量非常大,实时要求很难实现。而针对网络视频缩略图进行检索,是基于现有技术,一种可行的路径。
要对多媒体文件进行精准检索,首先要提供高可用的负载均衡服务器集群,存储标注的多媒体文件;其次要有一套分布式内存对象缓存系统,作为代理服务器,用于在动态系统中减少数据库负载,实现对多媒体文件的爬取索引;还可用软件定义网络(SoftwareDefined Network,SDN),其核心技术OpenFlow通过将网络设备控制面与数据面分离开来,从而实现了网络流量的灵活控制;最后利用关键词对图片格式文件进行检索,再对检索结果进行直方图的精准检索。
本发明提供了一种基于软件定义的网络分布式图片搜索引擎用户界面、检索排名、缓存爬取以及服务器集群框架,主干网络可运行在OpenFlow上,并且通过网络链接分布在全球各地的数据中心,提高广域线路的利用率。
发明内容
本发明的目的在于提供一种基于软件定义的网络分布式图片搜索引擎框架。本发明包括以下特征:
发明技术方案
1.一种基于软件定义的网络分布式图片搜索引擎框架,其具体步骤如下:
1)构建一套分布式内存对象缓存系统,作为代理服务器,用于在动态系统中减少数据库负载;
2)通过METAFILE的链路,实现对URL和直方图的提取及索引并建立URL与直方图映射;
3)构建高可用的负载均衡服务器集群,存储已索引的URL和直方图;
4)利用关键词或上传图片格式文件含关键词,对指向图片格式文件地址的URL进行检索;
5)对检索结果再进行直方图的精准检索,通过直方图与URL的映射,确定指向图片格式文件地址的URL,获得图片格式文件。
2.基于权利要求1的框架,主干网络可运行在OpenFlow上,并且通过网络链接分布在全球各地的数据中心,提高广域线路的利用率。
附图说明
图1是基于关键词和直方图的二级图片搜索引擎框架图;图2是一致性散列算法的原理图;图3是高可用的LVS集群拓扑结构图。
具体实施方式
这种基于软件定义的网络分布式图片搜索引擎框架,包括如下步骤:
1)构建一套分布式内存对象缓存系统,作为代理服务器见附图2,用于在动态系统中减少数据库负载;
2)通过METAFILE的链路,实现对URL和直方图的提取及索引并建立URL与直方图映射;
3)构建高可用的负载均衡服务器集群见附图3,存储已索引的URL和直方图;
4)利用关键词或上传图片格式文件含关键词,对指向图片格式文件地址的URL进行检索;
5)对检索结果再进行直方图的精准检索,通过直方图与URL的映射,确定指向图片格式文件地址的URL,获得图片格式文件;
6)主干网络可运行在OpenFlow上,并且通过网络链接分布在全球各地的数据中心,提高广域线路的利用率。
Claims (2)
1.一种基于软件定义的网络分布式图片搜索引擎框架,其具体步骤如下:
1)构建一套分布式内存对象缓存系统,作为代理服务器,用于在动态系统中减少数据库负载;
2)通过METAFILE的链路,实现对URL和直方图的提取及索引并建立URL与直方图映射;
3)构建高可用的负载均衡服务器集群,存储已索引的URL和直方图;
4)利用关键词或上传图片格式文件含关键词,对指向图片格式文件地址的URL进行检索;
5)对检索结果再进行直方图的精准检索,通过直方图与URL的映射,确定指向图片格式文件地址的URL,获得图片格式文件。
2.基于权利要求1的框架,主干网络可运行在OpenFlow上,并且通过网络链接分布在全球各地的数据中心,提高广域线路的利用率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610996857.2A CN106776694A (zh) | 2016-11-11 | 2016-11-11 | 一种基于软件定义的网络分布式图片搜索引擎框架 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610996857.2A CN106776694A (zh) | 2016-11-11 | 2016-11-11 | 一种基于软件定义的网络分布式图片搜索引擎框架 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106776694A true CN106776694A (zh) | 2017-05-31 |
Family
ID=58973470
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610996857.2A Pending CN106776694A (zh) | 2016-11-11 | 2016-11-11 | 一种基于软件定义的网络分布式图片搜索引擎框架 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106776694A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220362A (zh) * | 2017-06-08 | 2017-09-29 | 上海德衡数据科技有限公司 | 一种针对网络文档的网络爬虫提取url并索引及与关键词映射的框架 |
CN107273540A (zh) * | 2017-07-05 | 2017-10-20 | 北京三快在线科技有限公司 | 分布式搜索及索引更新方法、系统、服务器及计算机设备 |
CN110233860A (zh) * | 2018-03-05 | 2019-09-13 | 杭州萤石软件有限公司 | 一种负载均衡方法、装置和系统 |
-
2016
- 2016-11-11 CN CN201610996857.2A patent/CN106776694A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220362A (zh) * | 2017-06-08 | 2017-09-29 | 上海德衡数据科技有限公司 | 一种针对网络文档的网络爬虫提取url并索引及与关键词映射的框架 |
CN107273540A (zh) * | 2017-07-05 | 2017-10-20 | 北京三快在线科技有限公司 | 分布式搜索及索引更新方法、系统、服务器及计算机设备 |
CN110233860A (zh) * | 2018-03-05 | 2019-09-13 | 杭州萤石软件有限公司 | 一种负载均衡方法、装置和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107273409B (zh) | 一种网络数据采集、存储及处理方法及系统 | |
US10812358B2 (en) | Performance-based content delivery | |
US10664872B2 (en) | Systems and methods for generating network intelligence through real-time analytics | |
US10275433B2 (en) | Remote browsing and searching | |
US10027739B1 (en) | Performance-based content delivery | |
US20150227496A1 (en) | Method and system for microblog resource sharing | |
CN104135507B (zh) | 一种防盗链的方法和装置 | |
US20130060723A1 (en) | Method and system for a smart agent for information management with feed aggregation | |
CN109033115A (zh) | 一种动态网页爬虫系统 | |
CN104333531A (zh) | 网络资源的分享及获取方法、装置、终端 | |
CN103593434A (zh) | 应用推荐方法及装置、服务器设备 | |
US20130232424A1 (en) | User operation detection system and user operation detection method | |
CN106776694A (zh) | 一种基于软件定义的网络分布式图片搜索引擎框架 | |
US20200128301A1 (en) | System and method for content monitoring and filtering to improve network efficiency | |
US10491606B2 (en) | Method and apparatus for providing website authentication data for search engine | |
US20170371900A1 (en) | Generic card feature extraction based on card rendering as an image | |
CN103139252A (zh) | 一种网络代理缓存加速的实现方法及其装置 | |
US11532013B2 (en) | Optimized simultaneous use of content experimentation and content caching | |
CN104978337A (zh) | 一种基于软件定义网络的分布式视频搜索引擎框架 | |
US11875376B2 (en) | Minimizing impact of experimental content delivery on computing devices | |
CN105992074A (zh) | 一种基于关键帧和颜色直方图的网络视频格式文件摘要提取方法 | |
CN106503253A (zh) | 一种针对图片格式的网络爬虫提取url并索引及映射的框架 | |
DE102018100526A1 (de) | Reduzieren von Umleitungen | |
CN111723324B (zh) | 一种网站导航的更新方法、装置、计算机设备和存储介质 | |
WO2014169497A1 (en) | Method and server for pushing media file |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20180425 Address after: 200000 4A06 room 6, 277 Ruichang Road, Pudong New Area, Shanghai. Applicant after: Shanghai Deheng Data Technology Co. Ltd. Address before: 200061 1103, 40 Lane 100 lane, middle Tan Road, Putuo District, Shanghai. Applicant before: Zhang Jun |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170531 |