CN106776694A - 一种基于软件定义的网络分布式图片搜索引擎框架 - Google Patents

一种基于软件定义的网络分布式图片搜索引擎框架 Download PDF

Info

Publication number
CN106776694A
CN106776694A CN201610996857.2A CN201610996857A CN106776694A CN 106776694 A CN106776694 A CN 106776694A CN 201610996857 A CN201610996857 A CN 201610996857A CN 106776694 A CN106776694 A CN 106776694A
Authority
CN
China
Prior art keywords
url
network
search engine
distribution type
histogram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610996857.2A
Other languages
English (en)
Inventor
张军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai DC Science Co Ltd
Original Assignee
张军
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 张军 filed Critical 张军
Priority to CN201610996857.2A priority Critical patent/CN106776694A/zh
Publication of CN106776694A publication Critical patent/CN106776694A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于软件定义的网络分布式图片搜索引擎用户界面、检索排名、缓存爬取以及服务器集群框架,主干网络可运行在OpenFlow上,并且通过网络链接分布在全球各地的数据中心,提高广域线路的利用率。

Description

一种基于软件定义的网络分布式图片搜索引擎框架
技术领域
本发明涉及一种基于软件定义的网络分布式图片搜索引擎框架
背景技术
网络爬虫,也称网络蜘蛛、网络机器人,是一个自动提取网页的程序,它从因特网上下载网页,是搜索引擎的重要组成部分。网络爬虫利用标准的HTTP协议,根据超级链接和Web文档检索的方法遍历因特网信息空间。
目前搜索引擎只针对文本进行搜索,还不能对音乐、图片和视频等多媒体文件进行搜索,原因主要是多媒体数据量太大;如何索引多媒体文件;进而对处理过的多媒体文件检索。现在因特网上有大量的多媒体文件,特别是社交网站和多媒体分享的兴起,需要对多媒体文件进行精准检索。
因特网上有数千种不同的数据类型,HTTP给每种要通过Web传输的对象都打上了名为MIME类型的数据格式标签(常见图片格式:image/jpeg,image/gif)。统一资源定位符(URL)是资源标识符最常见的形式。URL描述了一台特定服务器上某资源的特定位置。元素文件(METAFILE)可提供有关页面的元信息,如针对搜索引擎和更新频度的描述和关键词,可针对元素的关键词进行索引。
UDP是OSI参考模型中一种无连接的传输层协议,它主要用于不要求分组顺序到达的传输中,分组传输顺序的检查与排序由应用层完成,提供面向事务的简单不可靠信息传送服务。网络图片可通过UDP进行下载,因为UDP具有TCP所望尘莫及的速度优势。
基于关键帧的网络视频格式文件摘要提取,计算量非常大,实时要求很难实现。而针对网络视频缩略图进行检索,是基于现有技术,一种可行的路径。
要对多媒体文件进行精准检索,首先要提供高可用的负载均衡服务器集群,存储标注的多媒体文件;其次要有一套分布式内存对象缓存系统,作为代理服务器,用于在动态系统中减少数据库负载,实现对多媒体文件的爬取索引;还可用软件定义网络(SoftwareDefined Network,SDN),其核心技术OpenFlow通过将网络设备控制面与数据面分离开来,从而实现了网络流量的灵活控制;最后利用关键词对图片格式文件进行检索,再对检索结果进行直方图的精准检索。
本发明提供了一种基于软件定义的网络分布式图片搜索引擎用户界面、检索排名、缓存爬取以及服务器集群框架,主干网络可运行在OpenFlow上,并且通过网络链接分布在全球各地的数据中心,提高广域线路的利用率。
发明内容
本发明的目的在于提供一种基于软件定义的网络分布式图片搜索引擎框架。本发明包括以下特征:
发明技术方案
1.一种基于软件定义的网络分布式图片搜索引擎框架,其具体步骤如下:
1)构建一套分布式内存对象缓存系统,作为代理服务器,用于在动态系统中减少数据库负载;
2)通过METAFILE的链路,实现对URL和直方图的提取及索引并建立URL与直方图映射;
3)构建高可用的负载均衡服务器集群,存储已索引的URL和直方图;
4)利用关键词或上传图片格式文件含关键词,对指向图片格式文件地址的URL进行检索;
5)对检索结果再进行直方图的精准检索,通过直方图与URL的映射,确定指向图片格式文件地址的URL,获得图片格式文件。
2.基于权利要求1的框架,主干网络可运行在OpenFlow上,并且通过网络链接分布在全球各地的数据中心,提高广域线路的利用率。
附图说明
图1是基于关键词和直方图的二级图片搜索引擎框架图;图2是一致性散列算法的原理图;图3是高可用的LVS集群拓扑结构图。
具体实施方式
这种基于软件定义的网络分布式图片搜索引擎框架,包括如下步骤:
1)构建一套分布式内存对象缓存系统,作为代理服务器见附图2,用于在动态系统中减少数据库负载;
2)通过METAFILE的链路,实现对URL和直方图的提取及索引并建立URL与直方图映射;
3)构建高可用的负载均衡服务器集群见附图3,存储已索引的URL和直方图;
4)利用关键词或上传图片格式文件含关键词,对指向图片格式文件地址的URL进行检索;
5)对检索结果再进行直方图的精准检索,通过直方图与URL的映射,确定指向图片格式文件地址的URL,获得图片格式文件;
6)主干网络可运行在OpenFlow上,并且通过网络链接分布在全球各地的数据中心,提高广域线路的利用率。

Claims (2)

1.一种基于软件定义的网络分布式图片搜索引擎框架,其具体步骤如下:
1)构建一套分布式内存对象缓存系统,作为代理服务器,用于在动态系统中减少数据库负载;
2)通过METAFILE的链路,实现对URL和直方图的提取及索引并建立URL与直方图映射;
3)构建高可用的负载均衡服务器集群,存储已索引的URL和直方图;
4)利用关键词或上传图片格式文件含关键词,对指向图片格式文件地址的URL进行检索;
5)对检索结果再进行直方图的精准检索,通过直方图与URL的映射,确定指向图片格式文件地址的URL,获得图片格式文件。
2.基于权利要求1的框架,主干网络可运行在OpenFlow上,并且通过网络链接分布在全球各地的数据中心,提高广域线路的利用率。
CN201610996857.2A 2016-11-11 2016-11-11 一种基于软件定义的网络分布式图片搜索引擎框架 Pending CN106776694A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610996857.2A CN106776694A (zh) 2016-11-11 2016-11-11 一种基于软件定义的网络分布式图片搜索引擎框架

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610996857.2A CN106776694A (zh) 2016-11-11 2016-11-11 一种基于软件定义的网络分布式图片搜索引擎框架

Publications (1)

Publication Number Publication Date
CN106776694A true CN106776694A (zh) 2017-05-31

Family

ID=58973470

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610996857.2A Pending CN106776694A (zh) 2016-11-11 2016-11-11 一种基于软件定义的网络分布式图片搜索引擎框架

Country Status (1)

Country Link
CN (1) CN106776694A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220362A (zh) * 2017-06-08 2017-09-29 上海德衡数据科技有限公司 一种针对网络文档的网络爬虫提取url并索引及与关键词映射的框架
CN107273540A (zh) * 2017-07-05 2017-10-20 北京三快在线科技有限公司 分布式搜索及索引更新方法、系统、服务器及计算机设备
CN110233860A (zh) * 2018-03-05 2019-09-13 杭州萤石软件有限公司 一种负载均衡方法、装置和系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220362A (zh) * 2017-06-08 2017-09-29 上海德衡数据科技有限公司 一种针对网络文档的网络爬虫提取url并索引及与关键词映射的框架
CN107273540A (zh) * 2017-07-05 2017-10-20 北京三快在线科技有限公司 分布式搜索及索引更新方法、系统、服务器及计算机设备
CN110233860A (zh) * 2018-03-05 2019-09-13 杭州萤石软件有限公司 一种负载均衡方法、装置和系统

Similar Documents

Publication Publication Date Title
CN107273409B (zh) 一种网络数据采集、存储及处理方法及系统
US10812358B2 (en) Performance-based content delivery
US10664872B2 (en) Systems and methods for generating network intelligence through real-time analytics
US10275433B2 (en) Remote browsing and searching
US10027739B1 (en) Performance-based content delivery
US20150227496A1 (en) Method and system for microblog resource sharing
CN104135507B (zh) 一种防盗链的方法和装置
US20130060723A1 (en) Method and system for a smart agent for information management with feed aggregation
CN109033115A (zh) 一种动态网页爬虫系统
CN104333531A (zh) 网络资源的分享及获取方法、装置、终端
CN103593434A (zh) 应用推荐方法及装置、服务器设备
US20130232424A1 (en) User operation detection system and user operation detection method
CN106776694A (zh) 一种基于软件定义的网络分布式图片搜索引擎框架
US20200128301A1 (en) System and method for content monitoring and filtering to improve network efficiency
US10491606B2 (en) Method and apparatus for providing website authentication data for search engine
US20170371900A1 (en) Generic card feature extraction based on card rendering as an image
CN103139252A (zh) 一种网络代理缓存加速的实现方法及其装置
US11532013B2 (en) Optimized simultaneous use of content experimentation and content caching
CN104978337A (zh) 一种基于软件定义网络的分布式视频搜索引擎框架
US11875376B2 (en) Minimizing impact of experimental content delivery on computing devices
CN105992074A (zh) 一种基于关键帧和颜色直方图的网络视频格式文件摘要提取方法
CN106503253A (zh) 一种针对图片格式的网络爬虫提取url并索引及映射的框架
DE102018100526A1 (de) Reduzieren von Umleitungen
CN111723324B (zh) 一种网站导航的更新方法、装置、计算机设备和存储介质
WO2014169497A1 (en) Method and server for pushing media file

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20180425

Address after: 200000 4A06 room 6, 277 Ruichang Road, Pudong New Area, Shanghai.

Applicant after: Shanghai Deheng Data Technology Co. Ltd.

Address before: 200061 1103, 40 Lane 100 lane, middle Tan Road, Putuo District, Shanghai.

Applicant before: Zhang Jun

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170531