CN103631818B - 非结构化数据的结构化检索方法及系统 - Google Patents
非结构化数据的结构化检索方法及系统 Download PDFInfo
- Publication number
- CN103631818B CN103631818B CN201210307974.5A CN201210307974A CN103631818B CN 103631818 B CN103631818 B CN 103631818B CN 201210307974 A CN201210307974 A CN 201210307974A CN 103631818 B CN103631818 B CN 103631818B
- Authority
- CN
- China
- Prior art keywords
- unstructured data
- script
- searching
- parameter
- unstructured
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种非结构化数据的结构化检索方法,该方法包括:根据检索管理操作的需要,分别对应配置用于非结构化数据检索的参数和非结构化数据检索脚本;调用所述非结构化数据检索脚本并解析,并从所配置的参数中提取所述非结构化数据检索脚本所需的参数;将提取的参数传送给所述非结构化数据检索脚本使用,执行对应的检索管理操作。本发明还公开了一种非结构化数据的结构化检索系统,该系统包括配置单元、解析单元、检索管理操作执行单元,其中,检索管理操作执行单元,用于将提取的参数传送给所述非结构化数据检索脚本使用,执行对应的检索管理操作。采用本发明,检索效率高,检索管理复杂度低。
Description
技术领域
本发明涉及数据检索管理技术,尤其涉及一种非结构化数据的结构化检索方法及系统。
背景技术
目前业界对非结构化数据的检索主要使用全文索引技术,通过建立倒排索引文件的传统方法,以便可以根据关键字对非结构化数据进行全文内容检索。所谓倒排索引文件指:由倒排索引构成基于主文档的索引文件。该倒排索引文件中的每一项都包括一个属性值和具有该属性值的各记录的地址,从而由该属性值来确定记录的位置。其中,所述属性值可以是关键词,相应地,所述具有该属性值的各记录的地址就是关键词在一个主文档或者一组主文档中的存储位置,这样,在倒排索引文件中设置了关键词和其对应的地址的映射关系,就能通过关键词迅速找到主文档中的对应数据了。
然而,通过上述对现有倒排索引检索技术的实现原理描述可知,这种检索技术由于是通过关键词来进行检索,因此,对结构化的数据,尤其是简单的文本信息的检索是比较有效的,针对非结构化的数据,如多媒体信息、图片信息、报表信息这些非文本信息的检索,采用现有倒排索引检索技术却非常不便利,最多只能对非结构化数据进行一些简单的文本检索操作。
随着网络技术的发展,特别是Internet和Intranet技术的飞快发展,使得非结构化数据的数量日趋增大,如果仍然采用现有的倒排索引检索技术,不仅检索效率低下,检索管理复杂度也会越来越高。目前迫切需要一种检索方案,能对非结构化数据进行处理,并能达到和处理结构化数据一样的检索效果,降低检索管理复杂度。
发明内容
有鉴于此,本发明的主要目的在于提供一种非结构化数据的结构化检索方法及系统,对非结构化数据进行处理,不仅能达到和处理结构化数据一样的检索效果,而且检索效率高,降低检索管理复杂度。
为达到上述目的,本发明的技术方案是这样实现的:
一种非结构化数据的结构化检索方法,该方法包括:
根据检索管理操作的需要,分别对应配置用于非结构化数据检索的参数和非结构化数据检索脚本;
调用所述非结构化数据检索脚本并解析,并从所配置的参数中提取所述非结构化数据检索脚本所需的参数;
将提取的参数传送给所述非结构化数据检索脚本使用,执行对应的检索管理操作。
其中,所述检索管理操作具体包括:对非结构化数据的匹配查询、格式转换、统计分析操作中的一种或至少一种的组合。
其中,所述配置还包括:对不同类型的非结构化数据,对应所配置的不同的非结构化数据检索脚本,分别设置提取策略。
其中,所述提取非结构化数据检索脚本所需的参数具体包括:根据所述提取策略,提取所述非结构化数据检索脚本所需的参数,所提取的参数与当前被调用的所述非结构化数据检索脚本相对应。
一种非结构化数据的结构化检索系统,该系统包括:配置单元、解析单元、检索管理操作执行单元;其中,
所述配置单元,用于根据检索管理操作的需要,分别对应配置用于非结构化数据检索的参数和非结构化数据检索脚本;
所述解析单元,用于调用所述非结构化数据检索脚本并解析,并从所配置的参数中提取所述非结构化数据检索脚本所需的参数;
所述检索管理操作执行单元,用于将提取的参数传送给所述非结构化数据检索脚本使用,执行对应的检索管理操作。
其中,所述检索管理操作具体包括:对非结构化数据的匹配查询、格式转换、统计分析操作中的一种或至少一种的组合。
其中,所述配置单元,进一步用于对不同类型的非结构化数据,对应所配置的不同的非结构化数据检索脚本,分别设置提取策略。
其中,所述解析单元,进一步用于根据所述提取策略,提取所述非结构化数据检索脚本所需的参数,所提取的参数与当前被调用的所述非结构化数据检索脚本相对应。
本发明根据检索管理操作的需要,分别对应配置用于非结构化数据检索的参数和非结构化数据检索脚本;调用所述非结构化数据检索脚本并解析,并从所配置的参数中提取所述非结构化数据检索脚本所需的参数;将提取的参数传送给所述非结构化数据检索脚本使用,执行对应的检索管理操作。
本发明由于能根据检索管理操作的需要,分别对应配置用于非结构化数据检索的参数和非结构化数据检索脚本,也就是说,是多格式配置,区别于现有技术是采用单一格式配置,因此,采用本发明,不仅能达到和处理结构化数据一样的检索效果,而且检索效率高,降低检索管理复杂度。
附图说明
图1为本发明方法的实现流程图;
图2为本发明系统的组成结构示意图。
具体实施方式
本发明的基本思想是:根据检索管理操作的需要,分别对应配置用于非结构化数据检索的参数和非结构化数据检索脚本;调用所述非结构化数据检索脚本并解析,并从所配置的参数中提取所述非结构化数据检索脚本所需的参数;将提取的参数传送给所述非结构化数据检索脚本使用,执行对应的检索管理操作。
以下,将本发明与现有技术做一对比描述,以更好地突出本发明的优越性。
本发明可以对不同的检索管理操作,分别配置不同的用于非结构化数据检索的参数和非结构化数据检索脚本。也可以说,针对具体的检索管理操作应用场景,本发明可以预先配置选择不同的格式,而现有技术是采用统一的单一格式,必须是关键字及其记录地址映射的格式,不能随机调整。本发明针对不同类型的非结构化数据也会选择不同的格式,具体的,首先,将音频和视频这些多媒体格式的数据预先经过语音与图形识别引擎,将这些多媒体格式的数据进行文件化之后,才能进行类似的非结构化处理,即为针对不同类型的非结构化数据也会选择不同的格式。从而,本发明不仅能对纯文本信息这种结构化数据进行处理,同样的,对非结构化数据,如多媒体信息、图片信息、报表信息这些非文本信息也可以进行处理,只要预先把各种情况都考虑周全,比如,对不同类型的非结构化数据,多媒体信息、图片信息、报表信息,在参数配置时分别设置提取规则,对应配置不同的非结构化数据检索脚本,那么,当这些提取的参数被传送给非结构化数据检索脚本时,就能通过适配检测出是针对哪一类非结构化数据的处理,从而快速完成检索管理操作。本发明的多格式设计不存在现有技术不能随机调整的弊端,按需采用多格式以适应不用操作应用场景,这种适配调整的方案不仅能兼容各种类型的数据检索(包括结构化数据和非结构化数据),而且定位准确,能快速完成检索管理操作。
本发明的检索管理操作包括但不限于对非结构化数据的匹配查询、格式转换和统计分析操作。其中,非结构化数据检索脚本实际上是一个命令集,对应不同的检索管理操作,分为用于匹配查询的非结构化数据检索脚本、用于格式转换的非结构化数据检索脚本、用于统计分析的非结构化数据检索脚本。通过对非结构化数据检索脚本中命令的解析,可以获知当前是哪个操作执行命令(匹配查询、格式转换或统计分析操作)。最终,将对应类型的非结构化数据配置参数提取出来,传送给对应的非结构化数据检索脚本,完成对应的检索管理操作(匹配查询、格式转换或统计分析操作)。
下面结合附图对技术方案的实施作进一步的详细描述。
一种非结构化数据的结构化检索方法,如图1所示,该方法包括以下步骤:
步骤101、根据不同的检索管理操作的需要,分别配置用于非结构化数据检索的参数和非结构化数据检索脚本。
步骤102、调用非结构化数据检索脚本并解析,从所配置的参数中提取所调用的该非结构化数据检索脚本所需的参数。
这里,由于非结构化数据有多种类型,如多媒体信息、图片信息、报表信息,因此,还需要在步骤101的配置操作中,对不同类型的非结构化数据,对应所配置的不同的非结构化数据检索脚本,分别设置提取策略。则步骤102中,根据该提取策略,提取所调用的该非结构化数据检索脚本所需的参数,该参数与当前被调用的非结构化数据检索脚本相对应。
步骤103、将提取的参数传送给该非结构化数据检索脚本使用,执行对应的检索管理操作。
这里,检索管理操作包括:对非结构化数据的匹配查询、格式转换和统计分析操作,可以是其中任意一种,也可以是其中至少两种的组合查询操作。
这里,步骤103中,当符合上述提取策略的参数,被传送给对应的非结构化数据检索脚本时,由于提取所调用的该非结构化数据检索脚本所需的参数,该参数与当前被调用的非结构化数据检索脚本相对应,因此,能通过适配检测出是针对哪一类非结构化数据的处理,从而快速完成对应的检索管理操作。
这里,步骤103后还包括:采用级联机制,将步骤103针对当前非结构化数据检索脚本处理得到的检索结果,作为调用下一个非结构化数据检索脚本处理时的输入参数。
以一个python格式的脚本为例,本实例的非结构化数据的结构化检索包括以下内容:
一、配置用于非结构化数据检索的参数。例如,参数所涉及的非结构化数据检索语法规则可以配置如下:
sourcetype=syslog|convert timeformat=″%H:%M:%S″ctime(_time)AS
c_time|stat
上述非结构化数据检索语法规则指:将从非结构化数据中匹配那些sourcetype标签标记为syslog的数据记录,然后使用convert命令对匹配记录进行时间格式转换,最后,使用stats命令按severity标签值对返回的数据记录进行数量统计。其中,“|”标记表示命令管道,命令管道用于级联各种检索操作之间的输入数据与输出数据。其中,所述sourcetype对应的中文含义指源数据类型,所述syslog指一种专用的日志协议,所述convert指格式转换,所述stats指统计分析,所述severity指重要性。
二、按非结构化数据检索语法规则,调用相对应的非结构化数据检索脚本,根据配置的用于非结构化数据检索的参数,执行该非结构化数据检索脚本对应的检索管理操作。
三、将处理上一条非结构化数据检索脚本的输出参数,作为下一条非结构化数据检索脚本的输入参数,如此往复,直至设定的检索管理操作全部执行完毕。
一种非结构化数据的结构化检索系统,如图2所示,该系统包括:配置单元、解析单元、检索管理操作执行单元。其中,配置单元用于根据检索管理操作的需要,分别对应配置用于非结构化数据检索的参数和非结构化数据检索脚本;解析单元用于调用所述非结构化数据检索脚本并解析,并从所配置的参数中提取所述非结构化数据检索脚本所需的参数;检索管理操作执行单元用于将提取的参数传送给所述非结构化数据检索脚本使用,执行对应的检索管理操作。
这里,检索管理操作具体包括:对非结构化数据的匹配查询、格式转换、统计分析操作中的一种或至少一种的组合。
这里,配置单元进一步用于对不同类型的非结构化数据,对应所配置的不同的非结构化数据检索脚本,分别设置提取策略。
这里,解析单元进一步用于根据所述提取策略,提取所述非结构化数据检索脚本所需的参数,所提取的参数与当前被调用的所述非结构化数据检索脚本相对应。
综上所述,结构化数据即为行数据,是存储在数据库里、可以用二维表结构来逻辑表达实现的数据。结构化数据能够用数据或统一的结构加以表示,如数字、符号,一般都是纯文本信息。而不方便用数据库二维逻辑表来表现的数据即称为非结构化数据。非结构化数据无法用数字或统一的结构表示,如文本、图像、声音、网页等,非结构化数据包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像、和音频/视频等多媒体数据。
正因为结构化数据和非结构化数据在格式上的上述区别,对结构化数据适用的检索技术并不适用于非结构化数据的检索,即便能检索也只是针对非结构化数据中的一些简单文本信息进行检索,而无法做到像针对结构化数据那样便利的结构化数据查询匹配、格式转换与统计分析等操作,而且检索效率底下,检索管理复杂度高;而采用本发明,针对不同类型的非结构化数据,不同的检索管理操作,分别配置不同的格式和检索适配策略,对结构化数据和非结构化数据都适用,即便对于非结构化数据,也能做到像针对结构化数据那样便利的结构化数据查询匹配、格式转换与统计分析等操作。
本发明通过配置非结构化数据检索脚本和参数,并通过命令管道技术来实现各种非结构化数据检索脚本操作之间的输入与输出数据级联,实现对非结构化数据的各种查询匹配、格式转换与统计分析操作。采用本发明,最终做到能够像结构化数据查询语言那样可以对非结构化数据进行同样的结构化查询匹配、格式转换与统计分析操作,而且检索效率高,检索管理复杂度低。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
Claims (8)
1.一种非结构化数据的结构化检索方法,其特征在于,该方法包括:
根据检索管理操作的需要,分别对应配置用于非结构化数据检索的参数和非结构化数据检索脚本;
调用所述非结构化数据检索脚本并解析,并从所配置的参数中提取所述非结构化数据检索脚本所需的参数;
将提取的参数传送给所述非结构化数据检索脚本使用,执行对应的检索管理操作。
2.根据权利要求1所述的方法,其特征在于,所述检索管理操作具体包括:对非结构化数据的匹配查询、格式转换、统计分析操作中的一种或至少两种的组合。
3.根据权利要求1所述的方法,其特征在于,所述配置还包括:对不同类型的非结构化数据,对应所配置的不同的非结构化数据检索脚本,分别设置提取策略。
4.根据权利要求3所述的方法,其特征在于,所述提取非结构化数据检索脚本所需的参数具体包括:根据所述提取策略,提取所述非结构化数据检索脚本所需的参数,所提取的参数与当前被调用的所述非结构化数据检索脚本相对应。
5.一种非结构化数据的结构化检索系统,其特征在于,该系统包括:配置单元、解析单元、检索管理操作执行单元;其中,
所述配置单元,用于根据检索管理操作的需要,分别对应配置用于非结构化数据检索的参数和非结构化数据检索脚本;
所述解析单元,用于调用所述非结构化数据检索脚本并解析,并从所配置的参数中提取所述非结构化数据检索脚本所需的参数;
所述检索管理操作执行单元,用于将提取的参数传送给所述非结构化数据检索脚本使用,执行对应的检索管理操作。
6.根据权利要求5所述的系统,其特征在于,所述检索管理操作具体包括:对非结构化数据的匹配查询、格式转换、统计分析操作中的一种或至少两种的组合。
7.根据权利要求5所述的系统,其特征在于,所述配置单元,进一步用于对不同类型的非结构化数据,对应所配置的不同的非结构化数据检索脚本,分别设置提取策略。
8.根据权利要求7所述的系统,其特征在于,所述解析单元,进一步用于根据所述提取策略,提取所述非结构化数据检索脚本所需的参数,所提取的参数与当前被调用的所述非结构化数据检索脚本相对应。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210307974.5A CN103631818B (zh) | 2012-08-27 | 2012-08-27 | 非结构化数据的结构化检索方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210307974.5A CN103631818B (zh) | 2012-08-27 | 2012-08-27 | 非结构化数据的结构化检索方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103631818A CN103631818A (zh) | 2014-03-12 |
CN103631818B true CN103631818B (zh) | 2018-08-24 |
Family
ID=50212885
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210307974.5A Active CN103631818B (zh) | 2012-08-27 | 2012-08-27 | 非结构化数据的结构化检索方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103631818B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1920817A (zh) * | 2006-09-14 | 2007-02-28 | 浙江大学 | 用于门户网站上,对多种资源仓库统一并行检索的方法 |
CN101510206A (zh) * | 2009-02-19 | 2009-08-19 | 北京思普科科技开发有限公司 | 一种非结构化数据查询方法 |
CN101739460A (zh) * | 2009-12-16 | 2010-06-16 | 中国科学院对地观测与数字地球科学中心 | 基于网格的空间数据源统一化服务系统和方法 |
CN102314375A (zh) * | 2011-03-18 | 2012-01-11 | 北京神州数码思特奇信息技术股份有限公司 | 一种异构数据库存储统一接口和数据库访问方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6980976B2 (en) * | 2001-08-13 | 2005-12-27 | Oracle International Corp. | Combined database index of unstructured and structured columns |
-
2012
- 2012-08-27 CN CN201210307974.5A patent/CN103631818B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1920817A (zh) * | 2006-09-14 | 2007-02-28 | 浙江大学 | 用于门户网站上,对多种资源仓库统一并行检索的方法 |
CN101510206A (zh) * | 2009-02-19 | 2009-08-19 | 北京思普科科技开发有限公司 | 一种非结构化数据查询方法 |
CN101739460A (zh) * | 2009-12-16 | 2010-06-16 | 中国科学院对地观测与数字地球科学中心 | 基于网格的空间数据源统一化服务系统和方法 |
CN102314375A (zh) * | 2011-03-18 | 2012-01-11 | 北京神州数码思特奇信息技术股份有限公司 | 一种异构数据库存储统一接口和数据库访问方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103631818A (zh) | 2014-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9680782B2 (en) | Identifying relevant content in email | |
US8078647B2 (en) | Ontology data import/export method and apparatus | |
US20180150562A1 (en) | System and Method for Automatically Extracting and Analyzing Data | |
US8103705B2 (en) | System and method for storing text annotations with associated type information in a structured data store | |
CN109254982A (zh) | 一种流数据处理方法、系统、装置及计算机可读存储介质 | |
CN105183860B (zh) | 数据同步方法和系统 | |
US8977606B2 (en) | Method and apparatus for generating extended page snippet of search result | |
US20110125697A1 (en) | Social media contact center dialog system | |
US9753960B1 (en) | System, method, and computer program for dynamically generating a visual representation of a subset of a graph for display, based on search criteria | |
US10891430B2 (en) | Semi-automated methods for translating structured document content to chat-based interaction | |
CN106649769B (zh) | 一种基于语义的xbrl数据到owl数据的转换方法 | |
CN102567297A (zh) | 数据转换装置和数据转换方法 | |
US20140172912A1 (en) | Methods, Systems, and Computer Program Products for Processing a Search Query Exchanged Via a Communications Protocol | |
CN108228664B (zh) | 非结构化数据处理方法及装置 | |
CN103902918B (zh) | 一种从Word文档中快速提取文字格式的方法和装置 | |
CN102708142A (zh) | 一种通过sql定制模板获取后台数据的方法和系统 | |
CN105468571A (zh) | 一种用于自动生成报告的方法及装置 | |
CN109542969B (zh) | 一种文本类变压器试验数据结构化的系统及方法 | |
CN105095180A (zh) | 一种中文人名播报方法及装置 | |
CN103631818B (zh) | 非结构化数据的结构化检索方法及系统 | |
Dickson et al. | The semi-structured data model and implementation issues for semi-structured data | |
EP2442235A1 (en) | Method adapting to mobile search interface, search server and system thereof | |
CN105224319B (zh) | 基于dom4j实现XBRL实例文档预览的方法 | |
US10015122B1 (en) | Methods and computer program products for processing a search | |
CN103136304B (zh) | 条目的处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |