CN112052369A - 一种大数据智能检索方法 - Google Patents

一种大数据智能检索方法 Download PDF

Info

Publication number
CN112052369A
CN112052369A CN202010880135.7A CN202010880135A CN112052369A CN 112052369 A CN112052369 A CN 112052369A CN 202010880135 A CN202010880135 A CN 202010880135A CN 112052369 A CN112052369 A CN 112052369A
Authority
CN
China
Prior art keywords
data
content
retrieval
search
contents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010880135.7A
Other languages
English (en)
Inventor
曾东
江灏
王海燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Jurong Science And Technology Information Consulting Co ltd
Original Assignee
Anhui Jurong Science And Technology Information Consulting Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Jurong Science And Technology Information Consulting Co ltd filed Critical Anhui Jurong Science And Technology Information Consulting Co ltd
Priority to CN202010880135.7A priority Critical patent/CN112052369A/zh
Publication of CN112052369A publication Critical patent/CN112052369A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/972Access to data in other repository systems, e.g. legacy data or dynamic Web page generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种大数据智能检索方法,包括如下步骤:数据预处理,用于对数据进行抓取和解析;数据分级搜索,用于对数据进行分级化搜索;数据排列显示;对用户行为记录及智能分析,用于记录搜索历史;其技术要点为,通过采用数据分级检索的方式,能够对录入的数据根据使用者的需求进行分级化检索,能够从多种渠道达到快速检索的目的;还增加了对不同内容同时检索的功能,帮助使用者找寻两者之间的联系,提高了整个检索方式的智能化;通过设计数据排列显示,利用小窗口化的显示模式,可增加同一内容在屏幕上的占比率,避免在对显示内容进行筛选查找时,需要进行多次翻页作业;同时也避免进行二次内容显示,帮助使用者快速查找到所需查找的内容。

Description

一种大数据智能检索方法
技术领域
本发明属于大数据领域,具体是一种大数据智能检索方法。
背景技术
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据有五大特点,即大量、高速、多样、低价值密度、真实性。它并没有统计学的抽样方法,只是观察和追踪发生的事情。
现有基于大数据下可对使用者所需查找的信息进行智能化搜索,在具体的搜索过程中会出现如下技术问题:对数据进行搜索时,查询到的相关内容较多,其关键内容都会在屏幕上以分页的形式展开,若是需要查询其中一个关键内容下的具体内容,则会跳转到另一显示页上进行展示,该种方式会极大的影响到使用者的检索速度,从而降低工作效率。
发明内容
本发明的目的在于克服现有技术的缺陷,提供一种大数据智能检索方法。
为实现上述目的,本发明采用了如下技术方案:
一种大数据智能检索方法,包括如下步骤:
数据预处理,用于对数据进行抓取和解析;
数据分级搜索,用于对数据进行分级化搜索;
数据排列显示;
对用户行为记录及智能分析,用于记录搜索历史。
优选的,在所述数据预处理的过程中,其具体步骤为:
S1、首先对录入的数据进行关键词抓取;
S2、对抓取后的关键词解析,与数据库中相近或相同的词条进行对比;
S3、建立对应词条分支下的内容化信息,用于后续搜索作业。
优选的,在所述S3步骤中,内容化信息包括但不限于图片、文字以及语音。
优选的,在所述数据分级检索的过程中,其具体可分为:
初级检索、标签化检索以及高级检索;
在初级检索中,录入信息后在整个数据库中进行依次索引;
在标签化检索中,可人为判断所需检索内容的大致所属领域,选定该领域下进行检索作业;
在高级检索中,可在录入的内容中添加空格或AND符号,用于间隔同一段录入的内容,用于对两段内容进行同时检索;
在检索过程中,可选取关联按钮,用于搜索两段内容交集处的信息。
优选的,在所述数据排列显示的过程中,搜索后在屏幕上展示内容的具体排列方式为:
关键信息内容于滚动页面上展示,并在关键信息一侧填设按钮,用于在小窗口内展示具体化的内容,并自动开启屏幕放大镜,关闭按钮后即可关闭小窗口展示。
优选的,在所述对用户行为记录及智能分析的过程中,
用户行为记录的具体内容为:搜索引擎对用户搜索的内容进行记录,并在下一次搜索时依据关键词自动在搜索框内显示该部分内容;
智能分析的具体内容为:将前后搜索的内容作智能分析,若内容相似,则从过往记录对应的词条分支下继续完成搜索作业;若内容不同,则重新进行数据搜索。
与现有技术相比,本发明提供了一种大数据智能检索方法,具有如下有益效果:
本发明通过采用数据分级检索的方式,能够对录入的数据根据使用者的需求进行分级化检索,能够从多种渠道达到快速检索的目的;
还增加了对不同内容同时检索的功能,帮助使用者找寻两者之间的联系,提高了整个检索方式的智能化;
通过设计数据排列显示,利用小窗口化的显示模式,可增加同一内容在屏幕上的占比率,避免在对显示内容进行筛选查找时,需要进行多次翻页作业;同时也避免进行二次内容显示,帮助使用者快速查找到所需查找的内容。
附图说明
图1是本发明的整体流程框图。
具体实施方式
以下结合附图1,进一步说明本发明一种大数据智能检索方法的具体实施方式。本发明一种大数据智能检索方法不限于以下实施例的描述。
本实施例给出一种大数据智能检索方法的具体结构,如图1所示,一种大数据智能检索方法,包括如下步骤:
数据预处理,用于对数据进行抓取和解析;
数据分级搜索,用于对数据进行分级化搜索;
数据排列显示;
对用户行为记录及智能分析,用于记录搜索历史
如图1所示,在数据预处理的过程中,其具体步骤为:
S1、首先对录入的数据进行关键词抓取;
S2、对抓取后的关键词解析,与数据库中相近或相同的词条进行对比;
S3、建立对应词条分支下的内容化信息,用于后续搜索作业。
如图1所示,在S3步骤中,内容化信息包括但不限于图片、文字以及语音。
如图所示,在数据分级检索的过程中,其具体可分为:
初级检索、标签化检索以及高级检索;
在初级检索中,录入信息后在整个数据库中进行依次索引;
在标签化检索中,可人为判断所需检索内容的大致所属领域,选定该领域下进行检索作业;(该领域即为上述步骤3中建立对应词条分支下的信息)。
在高级检索中,可在录入的内容中添加空格或AND符号,用于间隔同一段录入的内容,用于对两段内容进行同时检索;
在检索过程中,可选取关联按钮,用于搜索两段内容交集处的信息;
该处增加了对不同内容同时检索的功能,帮助使用者找寻两者之间的联系,提高了整个检索方式的智能化。
上述采用数据分级检索的方式,能够对录入的数据根据使用者的需求进行分级化检索,能够从多种渠道达到快速检索的目的。
如图1所示,在数据排列显示的过程中,搜索后在屏幕上展示内容的具体排列方式为:
关键信息内容于滚动页面上展示,并在关键信息一侧填设按钮,用于在小窗口内展示具体化的内容,并自动开启屏幕放大镜,关闭按钮后即可关闭小窗口展示。
上述设计了数据排列显示步骤,利用小窗口化的显示模式,可增加同一内容在屏幕上的占比率,避免在对显示内容进行筛选查找时,需要进行多次翻页作业;同时也避免进行二次内容显示,帮助使用者快速查找到所需查找的内容。
如图1所示,在对用户行为记录及智能分析的过程中,
用户行为记录的具体内容为:搜索引擎对用户搜索的内容进行记录,并在下一次搜索时依据关键词自动在搜索框内显示该部分内容;
智能分析的具体内容为:将前后搜索的内容作智能分析,若内容相似,则从过往记录对应的词条分支下继续完成搜索作业;若内容不同,则重新进行数据搜索。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (6)

1.一种大数据智能检索方法,其特征在于,包括如下步骤:
数据预处理,用于对数据进行抓取和解析;
数据分级搜索,用于对数据进行分级化搜索;
数据排列显示;
对用户行为记录及智能分析,用于记录搜索历史。
2.如权利要求1所述的一种大数据智能检索方法,其特征在于:在所述数据预处理的过程中,其具体步骤为:
S1、首先对录入的数据进行关键词抓取;
S2、对抓取后的关键词解析,与数据库中相近或相同的词条进行对比;
S3、建立对应词条分支下的内容化信息,用于后续搜索作业。
3.如权利要求2所述的一种大数据智能检索方法,其特征在于:在所述S3步骤中,内容化信息包括但不限于图片、文字以及语音。
4.如权利要求1所述的一种大数据智能检索方法,其特征在于:在所述数据分级检索的过程中,其具体可分为:
初级检索、标签化检索以及高级检索;
在初级检索中,录入信息后在整个数据库中进行依次索引;
在标签化检索中,可人为判断所需检索内容的大致所属领域,选定该领域下进行检索作业;
在高级检索中,可在录入的内容中添加空格或AND符号,用于间隔同一段录入的内容,用于对两段内容进行同时检索;
在检索过程中,可选取关联按钮,用于搜索两段内容交集处的信息。
5.如权利要求1所述的一种大数据智能检索方法,其特征在于:在所述数据排列显示的过程中,搜索后在屏幕上展示内容的具体排列方式为:
关键信息内容于滚动页面上展示,并在关键信息一侧填设按钮,用于在小窗口内展示具体化的内容,并自动开启屏幕放大镜,关闭按钮后即可关闭小窗口展示。
6.如权利要求1所述的一种大数据智能检索方法,其特征在于:在所述对用户行为记录及智能分析的过程中,
用户行为记录的具体内容为:搜索引擎对用户搜索的内容进行记录,并在下一次搜索时依据关键词自动在搜索框内显示该部分内容;
智能分析的具体内容为:将前后搜索的内容作智能分析,若内容相似,则从过往记录对应的词条分支下继续完成搜索作业;若内容不同,则重新进行数据搜索。
CN202010880135.7A 2020-08-27 2020-08-27 一种大数据智能检索方法 Pending CN112052369A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010880135.7A CN112052369A (zh) 2020-08-27 2020-08-27 一种大数据智能检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010880135.7A CN112052369A (zh) 2020-08-27 2020-08-27 一种大数据智能检索方法

Publications (1)

Publication Number Publication Date
CN112052369A true CN112052369A (zh) 2020-12-08

Family

ID=73601022

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010880135.7A Pending CN112052369A (zh) 2020-08-27 2020-08-27 一种大数据智能检索方法

Country Status (1)

Country Link
CN (1) CN112052369A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1845104A (zh) * 2006-05-22 2006-10-11 赵开灏 信息智能检索加工的系统和方法
US20070162422A1 (en) * 2005-12-30 2007-07-12 George Djabarov Dynamic search box for web browser
CN101789006A (zh) * 2010-01-29 2010-07-28 华东电网有限公司 基于智能搜索的电网企业信息集成系统的快速检索方法
CN102200975A (zh) * 2010-03-25 2011-09-28 北京师范大学 一种利用语义分析的垂直搜索引擎系统与方法
CN102436495A (zh) * 2011-11-14 2012-05-02 百度在线网络技术(北京)有限公司 一种提供动态搜索页面的方法及其装置
CN109992645A (zh) * 2019-03-29 2019-07-09 国家计算机网络与信息安全管理中心 一种基于文本数据的资料管理系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070162422A1 (en) * 2005-12-30 2007-07-12 George Djabarov Dynamic search box for web browser
CN1845104A (zh) * 2006-05-22 2006-10-11 赵开灏 信息智能检索加工的系统和方法
CN101789006A (zh) * 2010-01-29 2010-07-28 华东电网有限公司 基于智能搜索的电网企业信息集成系统的快速检索方法
CN102200975A (zh) * 2010-03-25 2011-09-28 北京师范大学 一种利用语义分析的垂直搜索引擎系统与方法
CN102436495A (zh) * 2011-11-14 2012-05-02 百度在线网络技术(北京)有限公司 一种提供动态搜索页面的方法及其装置
CN109992645A (zh) * 2019-03-29 2019-07-09 国家计算机网络与信息安全管理中心 一种基于文本数据的资料管理系统及方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
吴校连 等: "《生物医学搜索引擎与网络信息资源建设》", 31 October 2002, 上海:第二军医大学出版社, pages: 137 - 139 *
徐明 等: "《电子商务系统设计与实现》", 31 January 2001, pages: 102 - 103 *
李冬梅 等: "《信息技术学科知识与教学能力(高级中学)》", 3 August 2015, 北京:光明日报出版社, pages: 87 - 88 *
许丽丽: "《网络信息资源检索与利用》", 31 December 2008, 哈尔滨:黑龙江人民出版社, pages: 75 - 77 *

Similar Documents

Publication Publication Date Title
EP1003111B1 (en) A method of searching documents and a service for searching documents
WO2020155750A1 (zh) 基于人工智能的语料收集方法、装置、设备及存储介质
JP2006048685A (ja) 情報検索システムにおけるフレーズに基づくインデックス化方法
JP2006048683A (ja) 情報検索システムにおけるフレーズ識別方法
US7143086B2 (en) File search method and apparatus, and index file creation method and device
JP2006048686A (ja) フレーズに基づく文書説明の生成方法
CA2404319A1 (en) Method and system for gathering, organizing, and displaying information from data searches
EP2228737A2 (en) Improving search effectiveness
US8583679B2 (en) Method of providing by-viewpoint patent map and system thereof
US20070136248A1 (en) Keyword driven search for questions in search targets
US6694302B2 (en) System, method and article of manufacture for personal catalog and knowledge management
JP2002073677A (ja) 閲覧者の個人嗜好情報収集装置およびこれを利用した情報閲覧支援装置
KR20120087058A (ko) 연관 콘텐츠 제공 장치, 방법 및 컴퓨터 판독 가능한 기록 매체
CN113407785B (zh) 一种基于分布式储存系统的数据处理方法和系统
CN106897289B (zh) 信息搜索的优化方法及装置
CN101589387B (zh) 信息处理
CN115618014A (zh) 一种应用大数据技术的标准文献分析管理系统及方法
KR20040017824A (ko) 웹 문서와 리스트정보의 패턴을 이용한 패턴예상분석에따른 정보검색시스템
CN111597423B (zh) 一种文本分类模型可解释性方法的性能评价方法及装置
CN111859108A (zh) 一种舆情系统搜索词推荐系统
CN112052369A (zh) 一种大数据智能检索方法
CN116595043A (zh) 一种大数据检索方法及装置
Ananyan Crime pattern analysis through text mining
KR100933269B1 (ko) 색상 키워드를 이용한 검색 방법 및 시스템
CN113468377A (zh) 一种视频与文献关联整合方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201208

RJ01 Rejection of invention patent application after publication