CN107247772A - 一种基于互联网的图文搜索引擎 - Google Patents

一种基于互联网的图文搜索引擎 Download PDF

Info

Publication number
CN107247772A
CN107247772A CN201710420054.7A CN201710420054A CN107247772A CN 107247772 A CN107247772 A CN 107247772A CN 201710420054 A CN201710420054 A CN 201710420054A CN 107247772 A CN107247772 A CN 107247772A
Authority
CN
China
Prior art keywords
module
page
information
index file
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710420054.7A
Other languages
English (en)
Inventor
叶飞
孙萍
曹增安
许兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Flag Mdt Infotech Ltd
Original Assignee
Hefei Flag Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Flag Mdt Infotech Ltd filed Critical Hefei Flag Mdt Infotech Ltd
Priority to CN201710420054.7A priority Critical patent/CN107247772A/zh
Publication of CN107247772A publication Critical patent/CN107247772A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于互联网的图文搜索引擎,设置网页抓取模块页面抓取,存储至页面库,分别设置信息抓取模块和图像识别模块对抓取页面的图文内容进行解析、提取,存储到数据库,设置索引服务模块,调用Solr构建索引文件,存储至索引文件库,设置搜索服务模块对用户客户端输入的检索内容进行解析,并从索引文件库获取检索结果信息,加以解析,展示给用户;本发明基于Solr技术,建立高效、独立的企业级搜索引擎,根据互联网网站的特点,对网站页面抓取;使用信息抓取模块和图像识别模块完成图文信息提取,调用Solr构建索引文件,采用Solr工具实现整个信息检索,整个搜索引擎操作简捷,搭建效率高、成本低。

Description

一种基于互联网的图文搜索引擎
技术领域
本发明属于搜索引擎技术领域,涉及一种图文搜索引擎,具体是一种基于互联网的图文搜索引擎。
背景技术
搜索引擎是互联网信息检索工具,其可以抓取相关信息并存放于索引文件中,并依据用户査询内容完成搜索,最终提供相应的检索内容。搜索引擎本身也是提供专业服务的网站系统,其依据相关算法收集特定范围或者互联网信息,然后将上述信息进行处理,提供检索服务。对于用户而言,借助搜索引擎其可以输入相关信息在互联网中寻找到自己想要的相关信息。
搜索技术的快速发展,政府企业单位对于搜索需求与要求也在逐渐提高。随着这些企事业单位的快速发展,其所产生的信息也在呈现快速增长状态。面对稳定的经济大环境以及改革开放的深入,其竞争也逐渐激烈,对于任何企事业单位而言,如何快速寻找企业内部现有信息,如何更高效率的搜寻信息越发重要。
目前市而上的搜索引擎十分多,如百度搜索、360搜索等,但对于单体企事业单位而言,现有的搜索引擎存在内部网页抓取不够深入,抓取信息存在冗余等问题;同时对于企事业单位而言,现有搜索引擎其本身存在泄密的风险,但是利用自身技术开发高效率的搜索引擎难度较大,其所占用的成本、人力较多,因此搭建效率较高、成本较低的企业级搜索引擎对于企事业单位而言十分重要。
发明内容
本发明的目的在于提供一种操作简捷,搭建效率高、成本低的图文搜索引擎。
本发明的目的可以通过以下技术方案实现:
一种基于互联网的图文搜索引擎,包括服务器端以及通过互联网连接服务器端的用户客户端;
所述服务器端包括网页抓取模块、页面库、信息抓取模块、图像识别模块、数据库、索引服务模块、索引文件库以及搜索服务模块;
所述网页抓取模块,接入互联网,完成对预设的互联网网站所有页面的抓取,并将抓取的页面保存至页面库;
所述页面库,用于存储网页抓取模块抓取的网站页面;
所述信息抓取模块,用于对存储在页面库内的网站页面进行逐一读取,获取文字内容,分析其中的主体文字信息,存储至数据库中;
所述图像识别模块,用于对存储在页面库内的网站页面进行逐一读取,获取图像数据,并识别其中包含的图像信息,存储至数据库中;
所述数据库,用于存储信息抓取模块和图像识别模块获取的文字信息和图像信息;
所述数据导入模块,用于将数据库中的文字信息和图像信息导入到索引服务模块,建立索引文件;
所述索引服务模块,根据数据库中的文字信息和图像信息,调用Solr构建索引文件,并且可定时完成索引构建,存储到索引文件库;
所述索引文件库,用于存储索引服务模块建立的索引文件;
所述搜索服务模块,对用户客户端输入的检索内容进行解析,并从索引文件库获取检索结果信息,加以解析,转发至用户客户端。
进一步地,所述用户客户端包括检索模块和展示模块;
所述检索模块,用于用户输入检索内容,上传到服务器端,获取对应的检索结果;
所述展示模块,用于从服务器端获取用户需要的检索结果信息,实时展示给用户,并完成分页处理操作。
本发明的有益效果:本发明提供的基于互联网的图文搜索引擎,设置网页抓取模块页面抓取,存储至页面库,分别设置信息抓取模块和图像识别模块对抓取页面的图文内容进行解析、提取,存储到数据库,设置索引服务模块,调用Solr构建索引文件,存储至索引文件库,设置搜索服务模块对用户客户端输入的检索内容进行解析,并从索引文件库获取检索结果信息,加以解析,展示给用户;本发明基于Solr技术,建立高效、独立的企业级搜索引擎,根据互联网网站的特点,对网站页面抓取;使用信息抓取模块和图像识别模块完成图文信息提取,调用Solr构建索引文件,采用Solr工具实现整个信息检索,整个搜索引擎操作简捷,搭建效率高、成本低。
附图说明
下面结合附图和具体实施例对本发明作进一步详细描述。
图1是本发明系统示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,本发明提供了一种基于互联网的图文搜索引擎,包括服务器端以及通过互联网连接服务器端的用户客户端。
服务器端包括网页抓取模块、页面库、信息抓取模块、图像识别模块、数据库、索引服务模块、索引文件库以及搜索服务模块。
网页抓取模块,接入互联网,完成对预设的互联网网站所有页面的抓取,并将抓取的页面保存至页面库。
页面库,用于存储网页抓取模块抓取的网站页面。
信息抓取模块,用于对存储在页面库内的网站页面进行逐一读取,获取文字内容,并对获取的文字内容进行分析,完成噪音的过滤,获取其中的主体文字信息并存储至数据库中。
图像识别模块,用于对存储在页面库内的网站页面进行逐一读取,获取图像数据,并对获取的图像数据进行识别,识别图像中包含的图像信息并存储至数据库中。
数据库,用于存储信息抓取模块和图像识别模块获取的文字信息和图像信息。
数据导入模块,用于将数据库中的文字信息和图像信息导入到索引服务模块,建立索引文件。
索引服务模块,根据数据库中的文字信息和图像信息,调用Solr构建索引文件,并且可定时完成索引构建,存储到索引文件库。
索引文件库,用于存储索引服务模块建立的索引文件。
搜索服务模块,对用户客户端输入的检索内容进行解析,并从索引文件库获取检索结果信息,加以解析,转发至用户客户端。
用户客户端包括检索模块和展示模块。
检索模块,用于用户输入检索内容,上传到服务器端,获取对应的检索结果。
展示模块,用于从服务器端获取用户需要的检索结果信息,实时展示给用户,并完成分页处理操作。
本发明工作时:首先,网页抓取模块对预设的互联网网站所有页面进行抓取,并对所抓取的成果进行下载,存储至页面库;然后,信息抓取模块和图像识别模块分别对抓取页面的图文内容进行解析、提取(包括网页标题、时间、图像主题等),同时将所提取的内容存储到数据库;随后,利用数据导入模块将上述存储的数据导入至索引服务模块,调用Solr构建索引文件,存储至索引文件库;最后,依据索引编程成果对用户输入的检索内容进行数据检索,并将检索结果信息呈现给用户。
本发明提供的基于互联网的图文搜索引擎,设置网页抓取模块页面抓取,存储至页面库,分别设置信息抓取模块和图像识别模块对抓取页面的图文内容进行解析、提取,存储到数据库,设置索引服务模块,调用Solr构建索引文件,存储至索引文件库,设置搜索服务模块对用户客户端输入的检索内容进行解析,并从索引文件库获取检索结果信息,加以解析,展示给用户;本发明基于Solr技术,建立高效、独立的企业级搜索引擎,根据互联网网站的特点,对网站页面抓取;使用信息抓取模块和图像识别模块完成图文信息提取,调用Solr构建索引文件,采用Solr工具实现整个信息检索,整个搜索引擎操作简捷,搭建效率高、成本低。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

Claims (2)

1.一种基于互联网的图文搜索引擎,其特征在于:包括服务器端以及通过互联网连接服务器端的用户客户端;
所述服务器端包括网页抓取模块、页面库、信息抓取模块、图像识别模块、数据库、索引服务模块、索引文件库以及搜索服务模块;
所述网页抓取模块,接入互联网,完成对预设的互联网网站所有页面的抓取,并将抓取的页面保存至页面库;
所述页面库,用于存储网页抓取模块抓取的网站页面;
所述信息抓取模块,用于对存储在页面库内的网站页面进行逐一读取,获取文字内容,分析其中的主体文字信息,存储至数据库中;
所述图像识别模块,用于对存储在页面库内的网站页面进行逐一读取,获取图像数据,并识别其中包含的图像信息,存储至数据库中;
所述数据库,用于存储信息抓取模块和图像识别模块获取的文字信息和图像信息;
所述数据导入模块,用于将数据库中的文字信息和图像信息导入到索引服务模块,建立索引文件;
所述索引服务模块,根据数据库中的文字信息和图像信息,调用Solr构建索引文件,并且可定时完成索引构建,存储到索引文件库;
所述索引文件库,用于存储索引服务模块建立的索引文件;
所述搜索服务模块,对用户客户端输入的检索内容进行解析,并从索引文件库获取检索结果信息,加以解析,转发至用户客户端。
2.根据权利要求1所述的一种基于互联网的图文搜索引擎,其特征在于:所述用户客户端包括检索模块和展示模块;
所述检索模块,用于用户输入检索内容,上传到服务器端,获取对应的检索结果;
所述展示模块,用于从服务器端获取用户需要的检索结果信息,实时展示给用户,并完成分页处理操作。
CN201710420054.7A 2017-06-06 2017-06-06 一种基于互联网的图文搜索引擎 Pending CN107247772A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710420054.7A CN107247772A (zh) 2017-06-06 2017-06-06 一种基于互联网的图文搜索引擎

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710420054.7A CN107247772A (zh) 2017-06-06 2017-06-06 一种基于互联网的图文搜索引擎

Publications (1)

Publication Number Publication Date
CN107247772A true CN107247772A (zh) 2017-10-13

Family

ID=60018985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710420054.7A Pending CN107247772A (zh) 2017-06-06 2017-06-06 一种基于互联网的图文搜索引擎

Country Status (1)

Country Link
CN (1) CN107247772A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569442A (zh) * 2019-09-23 2019-12-13 贵州省广播电视信息网络股份有限公司 一种基于三层结构的媒资元数据服务系统
CN111538887A (zh) * 2020-04-30 2020-08-14 广东所能网络有限公司 一种基于人工智能的大数据图文识别系统及方法
CN114295073A (zh) * 2021-12-09 2022-04-08 江苏互旦网络科技有限公司 一种搜索引擎自动优化的系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012174971A1 (zh) * 2011-06-24 2012-12-27 Kuang Xiaoming 信息摘录方法及基于云计算的摘录信息网络存储管理系统
CN104899268A (zh) * 2015-05-25 2015-09-09 浪潮集团有限公司 一种分布式企业信息垂直搜索方法
CN106776710A (zh) * 2016-11-18 2017-05-31 广东技术师范学院 一种基于垂直搜索引擎的图文知识库构建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012174971A1 (zh) * 2011-06-24 2012-12-27 Kuang Xiaoming 信息摘录方法及基于云计算的摘录信息网络存储管理系统
CN104899268A (zh) * 2015-05-25 2015-09-09 浪潮集团有限公司 一种分布式企业信息垂直搜索方法
CN106776710A (zh) * 2016-11-18 2017-05-31 广东技术师范学院 一种基于垂直搜索引擎的图文知识库构建方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569442A (zh) * 2019-09-23 2019-12-13 贵州省广播电视信息网络股份有限公司 一种基于三层结构的媒资元数据服务系统
CN110569442B (zh) * 2019-09-23 2023-01-31 贵州省广播电视信息网络股份有限公司 一种基于三层结构的媒资元数据服务系统
CN111538887A (zh) * 2020-04-30 2020-08-14 广东所能网络有限公司 一种基于人工智能的大数据图文识别系统及方法
CN111538887B (zh) * 2020-04-30 2023-11-10 贵阳杰汇数字创新中心有限公司 一种基于人工智能的大数据图文识别系统及方法
CN114295073A (zh) * 2021-12-09 2022-04-08 江苏互旦网络科技有限公司 一种搜索引擎自动优化的系统
CN114295073B (zh) * 2021-12-09 2023-08-08 江苏互旦网络科技有限公司 一种搜索引擎自动优化的系统

Similar Documents

Publication Publication Date Title
CN102426591A (zh) 一种操作用于内容输入的语料库的方法和设备
CN107247772A (zh) 一种基于互联网的图文搜索引擎
CN105468744A (zh) 一种实现税务舆情分析和全文检索的大数据平台
CN105631051A (zh) 基于文字识别的移动增强现实阅读方法及其阅读系统
CN107766399A (zh) 用于使图像与内容项目匹配的方法和系统及机器可读介质
CN104615734B (zh) 一种社区管理服务大数据处理系统及其处理方法
CN107392238A (zh) 基于移动视觉搜索的户外植物知识拓展学习系统
CN105518644A (zh) 在地图上实时处理并显示社交数据的方法
CN102855317A (zh) 一种基于演示视频的多模式索引方法及系统
CN107357815A (zh) 一种图片内容的识别方法及系统
CN107943812A (zh) 为用户集中整合资源的新闻推荐方法
CN109948044A (zh) 基于向量最近邻搜索的文档查询
Fiallos et al. Detecting topics and locations on Instagram photos
Brito et al. Experiences integrating heterogeneous government open data sources to deliver services and promote transparency in brazil
Zhou et al. A baseline search engine for personal life archives
CN103838840A (zh) 一种基于形象关联模式的通讯录检索方法
CN104615639B (zh) 一种用于提供图片的呈现信息的方法和设备
CN102156749B (zh) 一种地图网站的自动搜索判别方法、系统及其分布式服务器系统
CN107491521A (zh) 一种图像搜索系统与方法
CN107766398A (zh) 用于使图像与内容项目匹配的方法、装置和数据处理系统
Goy et al. Ontologies and historical archives: A way to tell new stories
Swidler Marxism beyond the economy and exploitation beyond the wage
CN103294825B (zh) 影像文件搜索系统及方法
CN107368576A (zh) 一种教育资源数据采集系统
Menaha et al. Question answering system using web snippets

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171013