CN103324701B - 数据搜索装置和数据搜索方法 - Google Patents

数据搜索装置和数据搜索方法 Download PDF

Info

Publication number
CN103324701B
CN103324701B CN201310232720.6A CN201310232720A CN103324701B CN 103324701 B CN103324701 B CN 103324701B CN 201310232720 A CN201310232720 A CN 201310232720A CN 103324701 B CN103324701 B CN 103324701B
Authority
CN
China
Prior art keywords
data
search
condition
target
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310232720.6A
Other languages
English (en)
Other versions
CN103324701A (zh
Inventor
赵兴成
刘亚军
杨景慧
周辉
黄韶军
姜佰胜
田景
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE ICT Technologies Co Ltd
Original Assignee
ZTE ICT Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE ICT Technologies Co Ltd filed Critical ZTE ICT Technologies Co Ltd
Priority to CN201310232720.6A priority Critical patent/CN103324701B/zh
Publication of CN103324701A publication Critical patent/CN103324701A/zh
Application granted granted Critical
Publication of CN103324701B publication Critical patent/CN103324701B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种数据搜索装置,包括:条件设置单元,用于根据接收到的条件设置指令在前台设置搜索条件和分组条件;数据搜索单元,用于根据所述搜索条件在目标数据中进行数据搜索;数据分组单元,用于根据所述分组条件对搜索结果进行分组。本发明还提出了一种数据搜索方法。通过本发明的技术方案,能够将搜索条件设置在前台提供给用户,并能在任意指定目标中搜索所需内容,以及将搜索到的内容进行分组和统计,以便于用户查看。

Description

数据搜索装置和数据搜索方法
技术领域
本发明涉及数据搜索技术领域,具体而言,涉及一种数据搜索装置和一种数据搜索方法。
背景技术
目前,在日志搜索领域中,复杂搜索的易用性较差,用户通常只能应用简单搜索,复杂的搜索语法较难掌握。比如,Splunk(机器数据的搜索引擎)拥有完整的搜索语法规则,但是这些规则比较复杂,较难掌握,易用性较差,不能使技术人员快速掌握。
另一方面,在现有技术中,用户在进行搜索时,存在两种情况,一种是在数据库中搜索(比如通过百度搜索,则是在百度的数据库进行搜索),这种搜索用户只能在程序人员设置的搜索选项中选择搜索条件,而无法根据具体需要自行设置(自行设置需要有数据库基础,这对普通用户来说较难实现),另一种是通过搜索引擎进行搜索,这种方式虽然可以设置搜索条件,但是需要在后台修改代码,操作十分不便,需要,而且对搜索的结果也无法进行分组和统计。
因此,需要一种新的数据搜索技术,能够将搜索条件设置在前台提供给用户,并能在任意指定目标中搜索所需内容,以及将搜索到的内容进行分组和统计,以便于用户查看。
发明内容
本发明正是基于上述问题,提出了一种新的数据搜索方案,可以根据用户的需要对指定位置的目标数据进行搜索,使搜索的结果更加精确,并可以对搜索的结果进行统计分析,完善了搜索功能。
有鉴于此,本发明提出了一种数据搜索装置,包括:条件设置单元,用于根据接收到的条件设置指令设置搜索条件和分组条件;数据搜索单元,用于根据所述搜索条件在目标数据中进行数据搜索;数据分组单元,用于根据所述分组条件对搜索结果进行分组。
在该技术方案中,目标数据可以是数据库中的数据,也可以是用户指定的任意数据(比如本地的word文档、局域网中的视频共享文件),用户可以在前台设置搜索目标来确定目标数据,数据搜索装置在用户指定的目标数据中,根据用户设置的搜索条件进行搜索,并根据用户设置的对搜索结果进行分组的条件,对搜索的结果进行分析并分组显示,而在对非数据库中的数据进行搜索时,可以完成与数据库类似的分组功能,使搜索结果更加直观,提升了用户的体验。而且,搜索条件和分组条件都可以在前台进行设置,无需用户在后台调整代码来调整搜索条件,便于用户进行条件设置。
在上述技术方案中,优选地,所述搜索条件包括:搜索范围、搜索内容、过滤条件,则所述数据搜索单元包括:范围确定子单元,用于根据所述搜索范围在所述目标数据中确定目标范围数据;目标搜索子单元,用于根据所述搜索内容在所述目标范围数据中搜索与所述搜索内容相符的数据;数据过滤子单元,用于根据所述过滤条件对搜索到的数据进行过滤,并将过滤后的数据作为所述搜索结果。
在该技术方案中,搜索范围、搜索内容和过滤条件的设置都可以在前台完成,其中,设置搜索范围可以是指定一个索引库,比如指定一个文档、一份图表等。
设置搜索内容可以是设置具体的搜索方式,比如用户需要搜索一个字段,那么可以设置搜索内容为字段内容,从而在索引库中搜索包含该字段内容的字段,也可以设置需要搜索的单词、短语和逻辑关系等。
设置过滤条件可以是在确定的搜索范围中,进一步设置一个精确的范围,从而将该范围以外的数据剔除。
根据搜索范围和搜索内容对目标数据进行精确搜索,并根据过滤条件对搜索结果作进一步的筛选,提高了搜索结果的精确度。
在上述技术方案中,优选地,还包括:统计计算单元,用于根据在前台接收到的统计指令对所述分组处理后的数据进行统计计算。
在该技术方案中,根据统计指令也可以在前台生成统计条件,通过对分组后的数据进行统计分析,比如对分组处理后的数据求平均值、求和,或者是最小值、最大值等,可以对用户搜索到的大量数据进一步分析,以便于用户快速地了解搜索到的数据的整体情况。
在上述技术方案中,优选地,所述条件设置单元还用于根据在前台接收到的条件设置指令设置显示条件;则所述数据搜索装置还包括:数据显示单元,用于根据所述显示条件对统计计算后的数据进行显示。
在该技术方案中,显示条件也可以在前台生成,用户可以设置数据进行统计分析之后的显示方式,比如可以生成报表,或者是直方图、饼图、曲线图等显示结果,将搜索结果更加直观地呈现给用户作进一步的处理分析,完善了搜索引擎的功能。
在上述技术方案中,优选地,还包括:数据排序单元,用于根据在前台接收到的排序指令对所述分组处理后的数据进行顺序调整。
在该技术方案中,用户可以对分组处理后的数据进行顺序调整,增强了数据显示的灵活性,比如对数据进行正序或倒序进行排列,也可以根据数据的类型、大小等特征进行排列,以满足用户对数据处理的不同需求。
本发明还提出了一种数据搜索方法,包括:步骤202,根据接收到的条件设置指令在前台设置搜索条件和分组条件;步骤204,根据所述搜索条件在目标数据中进行数据搜索;步骤206,根据所述分组条件对搜索结果进行分组。
在该技术方案中,目标数据可以是数据库中的数据,也可以是用户指定的任意数据(比如本地的word文档、局域网中的视频共享文件),用户可以在前台设置搜索目标来确定目标数据,进而在用户指定的目标数据中,根据用户设置的搜索条件进行搜索,并根据用户设置的对搜索结果进行分组的条件,对搜索的结果进行分析并分组显示,而在对非数据库中的数据进行搜索时,可以完成与数据库类似的分组功能,使搜索结果更加直观,提升了用户的体验。而且,搜索条件和分组条件都可以在前台进行设置,无需用户在后台调整代码来调整搜索条件,便于用户进行条件设置。
在上述技术方案中,优选地,所述搜索条件包括:搜索范围、搜索内容、过滤条件,则所述步骤204包括:步骤2042,根据所述搜索范围在所述目标数据中确定目标范围数据;步骤2044,根据所述搜索内容在所述目标范围数据中搜索与所述搜索内容相符的数据;步骤2046,根据所述过滤条件对搜索到的数据进行过滤,并将过滤后的数据作为所述搜索结果。
在该技术方案中,搜索范围、搜索内容和过滤条件的设置都可以在前台完成,其中,设置搜索范围可以是指定一个索引库,比如指定一个文档、一份图表等。
设置搜索内容可以是设置具体的搜索方式,比如用户需要搜索一个字段,那么可以设置搜索内容为字段内容,从而在索引库中搜索包含该字段内容的字段,也可以设置需要搜索的单词、短语和逻辑关系等。
设置过滤条件可以是在确定的搜索范围中,进一步设置一个精确的范围,从而将该范围以外的数据剔除。
根据搜索范围和搜索内容对目标数据进行精确搜索,并根据过滤条件对搜索结果作进一步的筛选,提高了搜索结果的精确度。
在上述技术方案中,优选地,还包括:根据接在前台收到的统计指令对所述分组处理后的数据进行统计计算。
在该技术方案中,根据统计指令也可以在前台生成统计条件,通过对分组后的数据进行统计分析,比如对分组处理后的数据求平均值、求和,或者是最小值、最大值等,可以对用户搜索到的大量数据进一步分析,以便于用户快速地了解搜索到的数据的整体情况。
在上述技术方案中,优选地,所述步骤202还包括:根据在前台接收到的条件设置指令设置显示条件;所述步骤206还包括:根据所述显示条件对统计计算后的数据进行显示。
在该技术方案中,显示条件也可以在前台生成,用户可以设置数据进行统计分析之后的显示方式,比如可以生成报表,或者是直方图、饼图、曲线图等显示结果,将搜索结果更加直观地呈现给用户作进一步的处理分析,完善了搜索引擎的功能。
在上述技术方案中,优选地,在所述步骤206之前还包括:根据在前台接收到的排序指令对所述分组处理后的数据进行顺序调整。
在该技术方案中,用户可以对分组处理后的数据进行顺序调整,增强了数据显示的灵活性,比如对数据进行正序或倒序进行排列,也可以根据数据的类型、大小等特征进行排列,以满足用户对数据处理的不同需求。
通过以上技术方案,可以根据用户的需要对指定位置的目标数据进行搜索,使搜索的结果更加精确,并可以对搜索的结果进行统计分析,完善了搜索功能。
附图说明
图1示出了根据本发明的实施例的数据搜索装置的框图;
图2示出了根据本发明的实施例的数据搜索方法的流程图;
图3示出了根据本发明的实施例的数据搜索的语法规则;
图4A至图4C示出了根据本发明的实施例的数据搜索方法的效果图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了根据本发明的实施例的数据搜索装置的框图。
如图1所示,根据本发明的实施例的数据搜索装置100,包括:条件设置单元102,用于根据接收到的条件设置指令在前台设置搜索条件和分组条件;数据搜索单元104,用于根据搜索条件在目标数据中进行数据搜索;数据分组单元106,用于根据分组条件对搜索结果进行分组。
目标数据可以是数据库中的数据,也可以是用户指定的任意数据(比如本地的word文档、局域网中的视频共享文件),用户可以在前台设置搜索目标来确定目标数据,数据搜索装置100在用户指定的目标数据中,根据用户设置的搜索条件进行搜索,并根据用户设置的对搜索结果进行分组的条件,对搜索的结果进行分析并分组显示,而在对非数据库中的数据进行搜索时,可以完成与数据库类似的分组功能,使搜索结果更加直观,提升了用户的体验。而且,搜索条件和分组条件都可以在前台进行设置,无需用户在后台调整代码来调整搜索条件,便于用户进行条件设置。
优选地,搜索条件包括:搜索范围、搜索内容、过滤条件,则数据搜索单元104包括:范围确定子单元1042,用于根据搜索范围在目标数据中确定目标范围数据;目标搜索子单元1044,用于根据搜索内容在目标范围数据中搜索与搜索内容相符的数据;数据过滤子单元1046,用于根据过滤条件对搜索到的数据进行过滤,并将过滤后的数据作为搜索结果。
搜索范围、搜索内容和过滤条件的设置都可以在前台完成,其中,设置搜索范围可以是指定一个索引库,比如指定一个文档、一份图表等。
设置搜索内容可以是设置具体的搜索方式,比如用户需要搜索一个字段,那么可以设置搜索内容为字段内容,从而在索引库中搜索包含该字段内容的字段,也可以设置需要搜索的单词、短语和逻辑关系等。
设置过滤条件可以是在确定的搜索范围中,进一步设置一个精确的范围,从而将该范围以外的数据剔除。
根据搜索范围和搜索内容对目标数据进行精确搜索,并根据过滤条件对搜索结果作进一步的筛选,提高了搜索结果的精确度。
优选地,还包括:统计计算单元108,用于根据在前台接收到的统计指令对分组处理后的数据进行统计计算。
根据统计指令也可以在前台生成统计条件,通过对分组后的数据进行统计分析,比如对分组处理后的数据求平均值、求和,或者是最小值、最大值等,可以对用户搜索到的大量数据进一步分析,以便于用户快速地了解搜索到的数据的整体情况。
优选地,条件设置单元102还用于根据在前台接收到的条件设置指令设置显示条件;则数据搜索装置100还包括:数据显示单元110,用于根据显示条件对统计计算后的数据进行显示。
显示条件也可以在前台生成,用户可以设置数据进行统计分析之后的显示方式,比如可以生成报表,或者是直方图、饼图、曲线图等显示结果,将搜索结果更加直观地呈现给用户作进一步的处理分析,完善了搜索引擎的功能。
优选地,还包括:数据排序单元112,用于根据在前台接收到的排序指令对分组处理后的数据进行顺序调整。
用户可以对分组处理后的数据进行顺序调整,增强了数据显示的灵活性,比如对数据进行正序或倒序进行排列,也可以根据数据的类型、大小等特征进行排列,以满足用户对数据处理的不同需求。
图2示出了根据本发明的实施例的数据搜索方法的流程图。
如图2所示,根据本发明的实施例的数据搜索方法包括:步骤202,根据接收到的条件设置指令在前台设置搜索条件和分组条件;步骤204,根据搜索条件在目标数据中进行数据搜索;步骤206,根据分组条件对搜索结果进行分组。
目标数据可以是数据库中的数据,也可以是用户指定的任意数据(比如本地的word文档、局域网中的视频共享文件),用户可以在前台设置搜索目标来确定目标数据,进而在用户指定的目标数据中,根据用户设置的搜索条件进行搜索,并根据用户设置的对搜索结果进行分组的条件,对搜索的结果进行分析并分组显示,而在对非数据库中的数据进行搜索时,可以完成与数据库类似的分组功能,使搜索结果更加直观,提升了用户的体验。而且,搜索条件和分组条件都可以在前台进行设置,无需用户在后台调整代码来调整搜索条件,便于用户进行条件设置。
优选地,搜索条件包括:搜索范围、搜索内容、过滤条件,则步骤204包括:步骤2042,根据搜索范围在目标数据中确定目标范围数据;步骤2044,根据搜索内容在目标范围数据中搜索与搜索内容相符的数据;步骤2046,根据过滤条件对搜索到的数据进行过滤,并将过滤后的数据作为搜索结果。
在该技术方案中,搜索范围、搜索内容和过滤条件的设置都可以在前台完成,其中,设置搜索范围可以是指定一个索引库,比如指定一个文档、一份图表等。
设置搜索内容可以是设置具体的搜索方式,比如用户需要搜索一个字段,那么可以设置搜索内容为字段内容,从而在索引库中搜索包含该字段内容的字段,也可以设置需要搜索的单词、短语和逻辑关系等。
设置过滤条件可以是在确定的搜索范围中,进一步设置一个精确的范围,从而将该范围以外的数据剔除。
根据搜索范围和搜索内容对目标数据进行精确搜索,并根据过滤条件对搜索结果作进一步的筛选,提高了搜索结果的精确度。
优选地,还包括:根据在前台接收到的统计指令对分组处理后的数据进行统计计算。
根据统计指令也可以在前台生成统计条件,通过对分组后的数据进行统计分析,比如对分组处理后的数据求平均值、求和,或者是最小值、最大值等,可以对用户搜索到的大量数据进一步分析,以便于用户快速地了解搜索到的数据的整体情况。
优选地,步骤202还包括:根据在前台接收到的条件设置指令设置显示条件;步骤206还包括:根据显示条件对统计计算后的数据进行显示。
显示条件也可以在前台生成,用户可以设置数据进行统计分析之后的显示方式,比如可以生成报表,或者是直方图、饼图、曲线图等显示结果,将搜索结果更加直观地呈现给用户作进一步的处理分析,完善了搜索引擎的功能。
优选地,在步骤206之前还包括:根据在前台接收到的排序指令对分组处理后的数据进行顺序调整。
用户可以对分组处理后的数据进行顺序调整,增强了数据显示的灵活性,比如对数据进行正序或倒序进行排列,也可以根据数据的类型、大小等特征进行排列,以满足用户对数据处理的不同需求。
图3示出了根据本发明的实施例的数据搜索的语法规则。
如图3所示,根据本发明的实施例的数据搜索的语法规则,包括范围302,搜索语句304,展现306。
其中,范围302是指日志(数据)的搜索范围,即目标数据,用户可以设置从搜索范围中对数据进行搜索。
具体包括但不限于:
Index,用于确定搜索索引库;用户也可以指定多个索引库名称,名称之间由“,”号隔开;如Index=abc,zxc,zteict;表示搜索范围确定为三个索引库,即abc,zxc,zteict。在用户不指定索引库时,则指定为默认索引库;
Sourcetype,用于确定日志类型,用户可以指定多个日志类型,名称之间由“,”号隔开;如Sourcetype=produce,books,computer;表示确定本次搜索的日志类型为produce,books,computer;一个索引库中可以不全包括全部日志类型,但必须保证其中一个日志类型在所有指定索引库中可以找到。用户也可以不指定日志类型,默认是指定索引库中的所有日志类型。
搜索语句304包括:基础搜索类、分组统计类、条件过滤类、排序类;
其中,基础搜索类,包括:
字段搜索,用于针对某一个字段进行搜索,格式为“字段名称=内容”,如title=abc,表示搜索字段值中等于abc或包含abc的日志记录;
全文搜索,用于搜索框中输入任意单词或短语,如输入“error”,则表示搜索所有包含单词“error”的日志;
通配符搜索,用于在短语中输入通配符通配符“*”和“?”来进行搜索,其中,“*”号代表多个字符,“?”代表单个字符,如“title=abc*”,表示在title字段中搜索所有以“abc”开头的单词。
与或非搜索,用于对包括关键字“AND”、“OR”或“NOR”的短语进行搜索,其中,“AND”表示必须存在,“OR”表示可以存在,“NOR”表示一定不能存在,如:“name=zx?1ANDproject4OR error NOR success”,表示“name”字段等于“zx?1”并且含有“project”,可以包含“error”,但一定不能包含“success”的日志。
分组统计类,用于根据搜索结果进行分组,包括:
Range,用于对某一字段区间进行统计计算,语法规则:“Range Math(<field>)<start><end>”,其中“Math”表示数学方法,可以是sum、avg、max、min或其他数学函数;“field”表示字段名称,必须为日志类型中存在的字段名称;“start”表示起始值,可以是整形、浮点型或者时间类型等其他数据类型;“end”表示终止值,与起始值保持一致;如“Rangesum(price)10300”,表示价格区间在10到300之间的数据的价格总和;
Top,用于显示一个字段中出现频率最高的N个值,语法规则:“Top<field>N”,其中,“field”表示字段名称,必须为日志类型中存在的字段名称;“N”表示个数;如“Toptitle3”表示Title题目字段中,出现最多的3个;
Rare,用于显示一个字段中出现频率最低的N个值,语法规则:“Rare<field>N”,其中,“field”表示字段名称,必须为日志类型中存在的字段名称;“N”表示个数;如“Raretitle3”表示Title题目字段中,出现频率最低的3个;
StatsFields,用于对某一字段或多个字段进行综合计算,语法规则:“StatsFields math(<field1,field2…>)”,其中“math”表示数学方法,可以是sum、avg、max、min、count或其他数学方法;“<field1,field2…>”表示字段列表,字段需要类型一致,列表可以是一个或多个;如“StatsFields avg(price,value)”表示对price和value两列字段综合运算,sum就是求两列数据综合,avg就是求两列数据的平均值;
StatsGroup,用于根据某一字段分组,组内进行统计计算。语法规则:“StatsGroupmath(<field1>)by<field2>”,其中“math”表示数学方法,可以是sum、avg、max、min、count或其他数学方法;“field1”表示被统计字段;“by”表示关键字;“field2”表示分组字段,数据依赖于field2分组;如“StatsGroup count(type)by title”表示按照title分组,统计每组类型个数;
Histogram,用于根据两个字段的对应关系和跨度区间,形成直方图数据结构,语法规则:“Histogram x:<field1>,<span>y:math(<field2>)”其中,“x”表示横轴关键字;“<field1>”表示x轴字段;“<span>”表示横轴单位跨度,可以是时间跨度,如1D表示一天,1h表示一小时,1m表示一分钟等;“y”表示y轴关键字;“math”表示数学方法,可以是sum、avg、max、min、count或其他数学方法;“<field2>”表示y轴字段;如“Histogram x:price,30y:sum(type)”表示price字段以30一个单位跨度,计算type的总和;
Search,用于表示满足搜索条件的数据分组,语法规则:“Search“querystring””,其中“Querystring”表示搜索语句,与基础搜索规则相同,如“Search“price=46””表示统计price等于46的数据的个数;
Eval,用于表示两个字段之间进行数学逻辑运算或者作为字符串相加,语法规则:“Eval<field1>operator<field2>”,其中,“field1”表示操作字段;“Operator”表示数学运算符,如+、-、*、/等其他运算符;“field2”表示操作字段;如“Eval price*amount”表示计算每行日志中price字段和amount字段的乘积。
条件过滤类,用于对分组内容进行过滤,通过“Where”关键字来识别,包括但不限于:
Boundary,用于范围过滤,语法规则“Where Boundary<field><from><to>”,其中,“Boundary”表示范围过滤关键字;“Field”表示过滤目标字段;“From”表示起始值;“To”表示终止值;如“Where Boundary price10300”表示price字段在10到300之间的数据;
Term,用于字段过滤,语法规则:“Where Term<field><value>”,其中,“Term”表示字段过滤关键字;“Field”表示过滤目标字段;“Value”表示字段值;如“Where Termprice46”表示只统计或显示price等于46的数据;
Regex,用于正则匹配过滤,语法规则:“Regex<field><regex>”,其中“Regex”表示正则匹配关键字;“Field”表示匹配的目标字段;“regex”表示正则表达式;如“Regex titleab*de”表示只统计或显示符合正则表达式ab*de的title字段。
展现306,用于进行字段替换、图标展现等,包括:
Field,用于从搜索结果中保留或移除某些字段,语法规则:“Fields<+/->fields”,其中,“Fields”表示字段显示过滤关键字;“<+/->”:“+”表示保留字段,“-”表示移除字段,只能选其一;“fields”表示字段列表;如“Fields–id”表示不显示id字段,用于屏蔽一些私密信息;
Sort,用于按指定字段对结果集排序,语法规则:“Sort<+/->field”,其中“<+/->”:“+”表示正序,“-”表示逆序;“Field”表示排序字段;如“Sort–price”表示按照price价格逆序排列(从大到小);
Chart,用于进行前台显示。
图4A至图4C示出了根据本发明的实施例的进行数据搜索得到结果的示意图。
比如用户确定的搜索范围是学生的成绩表“student”,其中存储着某班学生的成绩,为了统计在某一成绩段内的学生人数,可以根据本发明数据搜索的方法,定义搜索语句如下:
“Index=zxc|title=student|Histogram x:Score,10y:sum(n)|where RangeScore0100|sort+Score|Chart Score type10”;
其中,“Index=zxc”定义了需要搜索的索引库(即成绩表所在的索引库是zxc),当然也可以同时指定多个索引库进行搜索,多个索引库之间用“,”进行分隔;
“title=student”定义了查找title字段包含“student”的内容,即在索引库“zxc”中查找包含“student”的内容;
“Histogram x:Score,10y:sum(n)”对分组和显示条件进行了设置,即以“Score(分数)”为x轴,“sum(n)(数量)”为y轴建立直方图,其中的“10”之x轴的单位跨度为10,即以10分为分数段对学生人数进行统计;
“where Range Score0100”定义了过滤范围,即只对分数在0-100之间的人数进行统计;
“sort+Score”定义了结果的排序方式(其中“+”表示正序排列,“-”表示逆序排列),即按照“Score”正序进行排列;
“Chart Score type10”定义了前台显示方式为第十个显示类型,即直方图。
上述搜索语句表明,在索引库“zxc”中,查找到title字段为“student”的成绩表(该成绩表可以是位于数据库中的成绩表,也可以是用户指定的任意位置的成绩表),对分数在0—100之间的人数以10分为间隔分别进行分组统计(即将处于0-10、10-20、20-30、30-40、40-50、50-60、60-70、70-80、80-90、90-100等10个分数段的不同学生分别划分至相应的组中),然后以分数(Score)为x轴,人数(sum(n))为y轴建立直方图,其结果如图4A所示,从图4A中,可以直观地确定出每个分数段的学生人数,比如处于60-70分数段内的学生数量为9。
当需要统计10-90之间各个分数段之间的人数时,可以在前台设置过滤条件,整个搜索语句变为:
“Index=zxc|title=student|Histogram x:Score,10y:sum(n)|where RangeScore1090|sort-Score|Chart Score type10”;
即对分数范围进行过滤,只对10-90之间各分数段的人数进行统计,其结果如图4B所示,从图4B中看出,过滤掉了0-10分与90-100分两个分数段中的数据。
用户还可以根据需要在前台更改统计的分数段间隔,比如以20分作为间隔,则整个搜索语句变为:
“Index=zxc|title=student|Histogram x:Score,20y:sum(n)|where RangeScore0100|sort-Score|Chart Score type10”;即更改直方图中x轴(Score)的跨度为20,其结果如图4C所示,原10个组变为5个组,比如0-10和10-20两个组变为0-20一个组。
当然,可以根据用户的不同要求对统计数据作各种分析处理。用户在进行搜索时,可以指定搜索的具体位置,可以是对数据库中的数据进行搜索,也可以是用户指定的任意位置的数据,并且可以对搜索的结果进行各种统计分析,完善了搜索的功能。
根据本发明的数据搜索装置,具体可以是一个搜索引擎,用户在使用过程中,可以方便地在前台设置条件,以完成对任意位置的数据进行搜索,提高了搜索数据的精度,并且可以对搜索的结果进行统计分析。比如,用户需要在两个Excel工作表中,搜索学生“Lucy”不同学科的成绩,则无需进入工作表,直接在搜索引擎中设置搜索的范围,即可完成对“Lucy”成绩的统计。并且相对于现有技术中的搜索语法(比如数据库中的SQL语句,以及Excel中执行查找功能的函数等)更加简单,易于用户的操作。
以上结合附图详细说明了本发明的技术方案,考虑到在现有技术方案中,用户在在数据库中搜索数据时,只能在程序人员设置的搜索选项中选择搜索条件,而无法根据具体需要自行设置,通过搜索引擎进行搜索设置搜索条件时,需要在后台修改代码,操作十分不便。因此,本发明提出了一种新的数据搜索方案,能够将搜索条件设置在前台提供给用户,并能在任意指定目标中搜索所需内容,以及将搜索到的内容进行分组和统计,以便于用户查看。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种数据搜索装置,其特征在于,包括:
条件设置单元,用于根据接收到的条件设置指令在前台设置搜索条件和分组条件;
数据搜索单元,用于根据所述搜索条件在目标数据中进行数据搜索;
数据分组单元,用于根据所述分组条件对搜索结果进行分组;
其中,所述目标数据包括word文档和/或视频文件,所述目标数据存储在数据库中或用户指定的任意位置;
所述搜索条件包括:搜索范围、搜索内容、过滤条件,则所述数据搜索单元包括:
范围确定子单元,用于根据所述搜索范围在所述目标数据中确定目标范围数据;
目标搜索子单元,用于根据所述搜索内容在所述目标范围数据中搜索与所述搜索内容相符的数据;
数据过滤子单元,用于根据所述过滤条件对搜索到的数据进行过滤,并将过滤后的数据作为所述搜索结果;
所述搜索范围为索引库,所述索引库包括文档和图表,所述搜索内容包括字段内容、单词、短语和逻辑关系。
2.根据权利要求1所述的数据搜索装置,其特征在于,还包括:
统计计算单元,用于根据在前台接收到的统计指令对所述分组处理后的数据进行统计计算。
3.根据权利要求2所述的数据搜索装置,其特征在于,所述条件设置单元还用于根据在前台接收到的条件设置指令设置显示条件;则所述数据搜索装置还包括:
数据显示单元,用于根据所述显示条件对统计计算后的数据进行显示。
4.根据权利要求3所述的数据搜索装置,其特征在于,还包括:
数据排序单元,用于根据在前台接收到的排序指令对所述分组处理后的数据进行顺序调整。
5.一种数据搜索方法,其特征在于,包括:
步骤202,根据接收到的条件设置指令在前台设置搜索条件和分组条件;
步骤204,根据所述搜索条件在目标数据中进行数据搜索;
步骤206,根据所述分组条件对搜索结果进行分组;
其中,所述目标数据包括word文档和/或视频文件,所述目标数据存储在数据库中或用户指定的任意位置;
所述搜索条件包括:搜索范围、搜索内容、过滤条件,则所述步骤204包括:
步骤2042,根据所述搜索范围在所述目标数据中确定目标范围数据;
步骤2044,根据所述搜索内容在所述目标范围数据中搜索与所述搜索内容相符的数据;
步骤2046,根据所述过滤条件对搜索到的数据进行过滤,并将过滤后的数据作为所述搜索结果;
所述搜索范围为索引库,所述索引库包括文档和图表,所述搜索内容包括字段内容、单词、短语和逻辑关系。
6.根据权利要求5所述的数据搜索方法,其特征在于,还包括:根据在前台接收到的统计指令对所述分组处理后的数据进行统计计算。
7.根据权利要求6所述的数据搜索方法,其特征在于,所述步骤202还包括:根据在前台接收到的条件设置指令设置显示条件;所述步骤206还包括:根据所述显示条件对统计计算后的数据进行显示。
8.根据权利要求7所述的数据搜索方法,其特征在于,在所述步骤206之前还包括:根据在前台接收到的排序指令对所述分组处理后的数据进行顺序调整。
CN201310232720.6A 2013-06-13 2013-06-13 数据搜索装置和数据搜索方法 Active CN103324701B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310232720.6A CN103324701B (zh) 2013-06-13 2013-06-13 数据搜索装置和数据搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310232720.6A CN103324701B (zh) 2013-06-13 2013-06-13 数据搜索装置和数据搜索方法

Publications (2)

Publication Number Publication Date
CN103324701A CN103324701A (zh) 2013-09-25
CN103324701B true CN103324701B (zh) 2018-10-09

Family

ID=49193444

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310232720.6A Active CN103324701B (zh) 2013-06-13 2013-06-13 数据搜索装置和数据搜索方法

Country Status (1)

Country Link
CN (1) CN103324701B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951468A (zh) * 2014-03-28 2015-09-30 阿里巴巴集团控股有限公司 数据搜索处理方法和系统
CN106815123B (zh) * 2015-12-01 2020-11-20 北京神州泰岳软件股份有限公司 一种日志数据的图形展现方法和图像展现装置
CN107193711A (zh) * 2017-05-26 2017-09-22 郑州云海信息技术有限公司 一种服务器诊断结果的统计分析方法
CN107577701A (zh) * 2017-07-26 2018-01-12 努比亚技术有限公司 一种数据排序方法、排序服务器及计算机可读存储介质
CN107506399B (zh) * 2017-08-02 2020-06-19 携程旅游网络技术(上海)有限公司 数据单元快速分段的方法、系统、设备及存储介质
CN107679071B (zh) * 2017-08-22 2020-12-18 中国科学院计算机网络信息中心 一种面向关系数据库的通用数据服务定制化封装方法
CN110019198B (zh) * 2017-09-28 2021-11-05 北京国双科技有限公司 数据查询方法和装置
CN108052517A (zh) * 2017-10-19 2018-05-18 福建中金在线信息科技有限公司 数据搜索方法和系统
CN110018980B (zh) * 2017-12-25 2021-07-27 北京金风科创风电设备有限公司 从风机控制器的仿真数据搜索故障数据的方法和设备
CN110175157B (zh) * 2019-04-24 2023-10-03 平安科技(深圳)有限公司 一种列存储文件的查询方法及查询装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034658A (zh) * 2011-09-29 2013-04-10 福建睿能电子有限公司 一种数据查询和报表导出的方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101039211A (zh) * 2006-03-15 2007-09-19 中兴通讯股份有限公司 一种性能数据的定制查询方法及其系统
CN101329674A (zh) * 2007-06-18 2008-12-24 北京搜狗科技发展有限公司 一种提供个性化搜索的系统和方法
CN102467726B (zh) * 2010-11-04 2015-07-29 阿里巴巴集团控股有限公司 一种基于网上交易平台的数据处理方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034658A (zh) * 2011-09-29 2013-04-10 福建睿能电子有限公司 一种数据查询和报表导出的方法及系统

Also Published As

Publication number Publication date
CN103324701A (zh) 2013-09-25

Similar Documents

Publication Publication Date Title
CN103324701B (zh) 数据搜索装置和数据搜索方法
US9128980B2 (en) Generation of a data model applied to queries
US10268758B2 (en) Method and system of acquiring semantic information, keyword expansion and keyword search thereof
CN104636478A (zh) 信息查询方法和设备
EP3671526B1 (en) Dependency graph based natural language processing
CN110909016B (zh) 基于数据库的重复关联检测方法、装置、设备及存储介质
US9092484B1 (en) Boolean reordering to optimize multi-pass data source queries
CN108710652A (zh) 一种基于统计的数据分析方法和系统、存储介质
CN108664509B (zh) 一种即席查询的方法、装置及服务器
CN109241278B (zh) 科研知识管理方法及系统
US20130297546A1 (en) Generating synthetic sentiment using multiple transactions and bias criteria
CN112000773A (zh) 基于搜索引擎技术的数据关联关系挖掘方法及应用
CN105183916A (zh) 一种管理非结构化数据的装置和方法
CN108304382A (zh) 基于制造过程文本数据挖掘的质量分析方法与系统
CN108073641B (zh) 查询数据表的方法和装置
CN108829651A (zh) 一种公文处理的方法、装置、终端设备及存储介质
JP6781820B2 (ja) 分散コンピューティングフレームワーク及び分散コンピューティング方法(distributed computing framework and distributed computing method)
CN108829698A (zh) 政务系统发文方法、装置、计算机设备及存储介质
JP2011086043A (ja) 単語テーマ関連度算出装置、単語テーマ関連度算出用プログラムおよび情報検索装置
CN107729428A (zh) 一种基于Presto和Elasticsearch的SQL查询方法
CN114817243A (zh) 数据库联合索引的建立方法、装置、设备及存储介质
CN112131288B (zh) 数据源接入处理方法和装置
Ioannou et al. Query analytics over probabilistic databases with unmerged duplicates
US20100268723A1 (en) Method of partitioning a search query to gather results beyond a search limit
Shekarpour et al. Generating SPARQL queries using templates

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant