CN107239454B - 基于文本数据库的检索方法及系统 - Google Patents
基于文本数据库的检索方法及系统 Download PDFInfo
- Publication number
- CN107239454B CN107239454B CN201610182166.9A CN201610182166A CN107239454B CN 107239454 B CN107239454 B CN 107239454B CN 201610182166 A CN201610182166 A CN 201610182166A CN 107239454 B CN107239454 B CN 107239454B
- Authority
- CN
- China
- Prior art keywords
- line
- row
- file
- column
- reading
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于文本数据库的检索方法及系统,其中方法包括:读取文件中所有内容到内存中;定义数组对象,逐行从内存中读取文件中的数据到数组对象中;为数组对象建立行列索引;根据所述行列索引,获取文件内容。通过上述方式,本发明可以提高检索效率,并降低工作量,节约人力。
Description
技术领域
本发明涉及数据库技术领域,尤其是涉及一种基于文本数据库的检索方法及系统。
背景技术
对于一些需要使用数据库但是又不方便通过数据库软件来存取数据的场合,比如对于游戏的客户端软件,它往往拥有大量的配置文件,但是在客户端中想要使用数据库往往面临着一些麻烦,比如需要在客户端内嵌入数据库文件,对嵌入的数据库文件需要加密,数据文本也需要加密等等。此时使用有纯文本组成的文本数据库往往要方便很多,但是对于文本数据库的读写操作相较于应用数据库软件而言就显得很繁杂了,此时就需要一套对于文本数据库的读写方式。本专利描述的是一种处理多个文本数据库文件的数据载入读取方法。
文本数据库存储在本地文件夹中,如果需要查找文本中的某一数值,则每次都临时到对应文件中去查找,那么效率上是不理想的,不能满足实际需求;倘若把文本的内容都存储在内存中,并且能够以一种比较简便快捷的方式迅速查找到所需的值,但如果存储方法不理想,往往得不偿失。而且对于大批量的文件,倘若每一个文件都去编写一个配套的读取函数,那工作量是惊人的,并且不利于后期的维护。
发明内容
本发明所要解决的技术问题是:提供一种基于文本数据库的检索方案,可提高文件查询效率,且降低工作量。
为了解决上述技术问题,本发明采用的技术方案为:提供一种基于文本数据库的检索方法,包括:
读取文件中所有内容到内存中;
定义数组对象,逐行从内存中读取文件中的数据到数组对象中;
为数组对象建立行列索引;
根据所述行列索引,获取文件内容。
为解决上述问题,本发明还提供一种基于文本数据库的检索系统,包括:
读取模块,用于读取文件中所有内容到内存中;
定义模块,用于定义数组对象,逐行从内存中读取文件中的数据到数组对象中;
索引模块,用于为数组对象建立行列索引;
查询模块,用于根据所述行列索引,获取文件内容。
本发明的有益效果在于:区别于现有技术,本发明通过读取文件内容到内存中,并定义数组对象,从内存中读取数据到数组对象中,建立行列索引后,根据该索引,可快速获取文件内容。通过上述方式,本发明可以提高检索效率,并降低工作量,节约人力。
附图说明
图1为本发明方法实施例一的流程示意图;
图2为本发明系统实施例二的结构示意图。
具体实施方式
为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图予以说明。
本发明最关键的构思在于:为所有文件建立行列索引,并根据索引进一步检索所需的内容。
本发明主要是提供一种处理多个文本数据库文件的数据载入读取方案,请参照图1,本发明实施例一提供一种基于文本数据库的检索方法,包括:
S1:读取文件中所有内容到内存中;
S2:定义数组对象,逐行从内存中读取文件中的数据到数组对象中;
S3:为数组对象建立行列索引;
S4:根据所述行列索引,获取文件内容。
具体地,本发明是通过C++语言实现,并在步骤S1之前,将所有文件都看成是只具有行列属性的一张表。应当说明的是,这是本发明在具体应用中的一个抽象,所有文件都可以进行这种抽象。文本数据库可以被视为将一个数据库内的一张表的数据拷贝出来,然后存在.txt或者excel等文件中,文件内容仍然可以视为一张表,但是如果要对表进行检索,利用sql就无法实现了,只能通过文件操作来进行。随后对于这张表构造一个模板类class,class中提供打开文件并将文件的内容按行列属性存储在内存中的方法。方法具体实现过程如下:
1、打开文件,将文件内的所有内容读到内存中;
2、定义一个数组对象,保存文件的第一行数据(如第一行是列名,不是真实数据)。声明vector<char*>(即存储空间大小可变的数组对象)对象col,声明vector<vector<char*>>(可以看成是存储空间可变的二维数组对象,每一行都是一个col对象,分N列)对象line,将内存中的数据逐字段读到col中,读进去的过程中需要检查列值,若出现为空的列,用0表示,这么做的目的是在可变长数组容器中,值的存储是并列的,若出现空的值,会跳过这个值然后读取下一个值,跳过的值不计数,这样就会出现列数不对应的情况。待遇到换行符时代表一行读取完毕,此时将col的内容存入line的尾部保存下来,然后清空col中的内容后继续将新的一行数据读到col中,依次循环直到全部读取完毕,这样处理,使得源文件的行和列的顺序不会改变;
3、为line中的数据建立行列索引(纯文本文件没有索引概念),行索引的建立方式为:为每张表(即每个文件)人为定义一个集合,集合内包含表的若干属性值,这个集合被看成是对应表的主键值,然后每一行都提取主键值与对应的行号进行组合成一个元素,再定义一个映射关系,映射关系通过主键进行查找,返回此主键值所对应的行号,以此来定位已知主键值的一行数据所在行号,然后在line中查找对应行号的数据,以获得该行所有数据,查找对应行号的方法是根据数组自带的下标来获取;列索引的建立方式为:每个文件的第一行固定为该表各列的属性名,以属性名和对应的列号为组合,存入一个对象中,查找的时候通过属性名为查找条件,得到该属性所在的列号。行列索引的存在可以帮助程序快速定位到指定行列上。
例如:学生表.txt内容如下:
则先将整个表的数据读入内存,然后将第一行(列名)存入数组colname中,从第二行开始至末尾都是有效数据。把第二行整行数据从内存中读出来按列(相邻两列间有特殊符号分隔,对应编码是’\t’)检查处理好空值(比如上表第四行的性别,那就用0表示)后存入到数组col中(数组可以理解成一排连续的格子。这里再解释下下标,假设对于第二行数据存入col后,对col[0]取值得到的就是张三,col[1]就得到“3”,col[4]得到“汉”,这个0、1、4就是下标),再将col的内容存入二维数组line中,然后清空col的内容,再将下一行的数据处理好后存入col中,这样一直循环到把全部有效数据都存到了line中,此时加入我获取line[0],得到的就是一个以“张三312男汉”为内容的数组,获取line[0][0]即第0行第0列数据,也就是“张三”。
接下来建立索引:行索引:假设定义姓名+年龄组成主键,那么索引的内容第一行就是(张三,3)=1,第二行就是(李四,4)=2;列索引:内容就是:姓名=1、年级=2…民族=5。
比如要查找5年级王五的性别,先通过5年级和王五定位行号为3,然后再定位性别为第四列,那么获取line[2][3](下标从0开始)就是所需值了。
应用本发明后,从效率方面看:数据存储在内存中,需要查询哪个数据可以借助行列索引快速得到。
建立索引只需要获取主键属性,这个在建立表文件的时候一般都需要设定主键,所以基本上不需要特别去获取,只需要为每个文件定义好一个主键的类型就好了,然而为每个文件去编写一个配套的读取函数所需要的工作量就比这个大多了。
Line是在内存中的,一般会作为文件数据库的数据,大都不会出现比较长的内容(比如一个字段里是一篇文章或者其他的很多内容的数据),适用场合一般都倾向于文件字段多,但是值内容不是很多的数据,这种数据一个也才几十K,一百个也不过几M大小。
从工作量方面看:将所需要的方法都定义在了通用模板类中,免去了为每个表文件编写一个读取查询函数的困扰,节约了人力。
如图2所示,本发明实施例二提供一种基于文本数据库的检索系统100,包括:
读取模块110,用于读取文件中所有内容到内存中;
定义模块120,用于定义数组对象,逐行从内存中读取文件中的数据到数组对象中;
索引模块130,用于为数组对象建立行列索引;
查询模块140,用于根据所述行列索引,获取文件内容。
其中,在实施之前,还需要将文件抽象成具有行列属性的表,因此所述系统100还包括:
抽象模块101,用于将文件抽象成具有行列属性的表;
构造模块102,用于为所述表构造模板。
其中,所述定义模块120具体用于:
定义数组对象,包括存储空间大小可变的数组对象col及line;
将所述表的第一行数据作为列名,并保存;
从第二行开始,从内存中逐字段读取所述表中的数据到数组对象col中,直至一行完毕;
保存数组对象col内容到数组对象line尾部后,清空col中内容;
进入下一行,重复执行步骤“从内存中逐字段读取所述表中的数据到数组对象col中,直至一行完毕”直至全部读取内存中内容。
在上述读取过程中,检测列值是否为空;
若是,则忽略所述空列值,并不作计数;
反之,则继续读取后续字段,直至读取一行完毕。
所述索引模块130具体用于:
建立行索引,具体地:
为所述表定义集合,对应所述表的主键值,包括所述表的若干属性值;
逐行提取主键值及对应的行号,以组合成元素,并定义对应的映射关系;
建立列索引,具体地:
定义所述表的第一行数据为属性名;
组合属性名及对应列号,并存入数组对象col中。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (4)
1.一种基于文本数据库的检索方法,其特征在于,包括:
读取文件中所有内容到内存中;
定义数组对象,逐行从内存中读取文件中的数据到数组对象中;
为数组对象建立行列索引;
根据所述行列索引,从所述内存中获取文件内容;
读取文件中所有内容到内存中的步骤之前,还包括:
将文件抽象成具有行列属性的表;
为所述表构造模板类,所述模板类中提供打开文件并将文件的内容按行列属性存储在内存中的方法;
其中,定义数组对象,逐行从内存中读取文件中的数据到数组对象中的步骤具体为:
定义数组对象,包括存储空间大小可变的数组对象col及line;
将所述表的第一行数据作为列名,并保存;
从第二行开始,从内存中逐字段读取所述表中的数据到数组对象col中,直至一行完毕;
保存数组对象col内容到数组对象line尾部后,清空col中内容;
进入下一行,重复执行步骤“从内存中逐字段读取所述表中的数据到数组对象col中,直至一行完毕”直至全部读取内存中内容;
为数组对象建立行列索引的步骤包括:
建立行索引,具体地:
为所述表定义集合,对应所述表的主键值,包括所述表的若干属性值;
逐行提取主键值及对应的行号,以组合成元素,并定义对应的映射关系;
建立列索引,具体地:
定义所述表的第一行数据为属性名;
组合属性名及对应列号,并存入数组对象col中。
2.根据权利要求1所述基于文本数据库的检索方法,其特征在于,读取过程中,检测列值是否为空;
若是,则忽略所述空列值,并不作计数;
反之,则继续读取后续字段,直至读取一行完毕。
3.一种基于文本数据库的检索系统,其特征在于,包括:
读取模块,用于读取文件中所有内容到内存中;
定义模块,用于定义数组对象,逐行从内存中读取文件中的数据到数组对象中;
索引模块,用于为数组对象建立行列索引;
查询模块,用于根据所述行列索引,从所述内存中获取文件内容;
抽象模块,用于将文件抽象成具有行列属性的表;
构造模块,用于为所述表构造模板,所述模板类中提供打开文件并将文件的内容按行列属性存储在内存中的方法;
所述定义模块具体用于:
定义数组对象,包括存储空间大小可变的数组对象col及line;
将所述表的第一行数据作为列名,并保存;
从第二行开始,从内存中逐字段读取所述表中的数据到数组对象col中,直至一行完毕;
保存数组对象col内容到数组对象line尾部后,清空col中内容;
进入下一行,重复执行步骤“从内存中逐字段读取所述表中的数据到数组对象col中,直至一行完毕”直至全部读取内存中内容;
所述索引模块具体用于:
建立行索引,具体地:
为所述表定义集合,对应所述表的主键值,包括所述表的若干属性值;
逐行提取主键值及对应的行号,以组合成元素,并定义对应的映射关系;
建立列索引,具体地:
定义所述表的第一行数据为属性名;
组合属性名及对应列号,并存入数组对象col中。
4.根据权利要求3所述基于文本数据库的检索系统,其特征在于,读取过程中,检测列值是否为空;
若是,则忽略所述空列值,并不作计数;
反之,则继续读取后续字段,直至读取一行完毕。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610182166.9A CN107239454B (zh) | 2016-03-28 | 2016-03-28 | 基于文本数据库的检索方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610182166.9A CN107239454B (zh) | 2016-03-28 | 2016-03-28 | 基于文本数据库的检索方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107239454A CN107239454A (zh) | 2017-10-10 |
CN107239454B true CN107239454B (zh) | 2020-11-17 |
Family
ID=59982816
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610182166.9A Active CN107239454B (zh) | 2016-03-28 | 2016-03-28 | 基于文本数据库的检索方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107239454B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019221B (zh) * | 2017-12-18 | 2022-07-19 | 本无链科技(深圳)有限公司 | 一种内存映像型数据库系统 |
CN110059065A (zh) * | 2019-04-25 | 2019-07-26 | 北京酷我科技有限公司 | 一种磁盘索引数据的方法 |
CN111143349A (zh) * | 2019-11-26 | 2020-05-12 | 广东三扬网络科技有限公司 | 一种快速从集合中查找信息的方法及电子设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101895676A (zh) * | 2010-07-07 | 2010-11-24 | 上海富瀚微电子有限公司 | 一种适用于bm3d实时处理的集合方法 |
CN104636349A (zh) * | 2013-11-07 | 2015-05-20 | 阿里巴巴集团控股有限公司 | 一种索引数据压缩以及索引数据搜索的方法和设备 |
WO2015109250A1 (en) * | 2014-01-20 | 2015-07-23 | Alibaba Group Holding Limited | CREATING NoSQL DATABASE INDEX FOR SEMI-STRUCTURED DATA |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100428226C (zh) * | 2003-12-27 | 2008-10-22 | 海信集团有限公司 | 实现类内存数据库存取和检索的方法 |
US8620924B2 (en) * | 2012-03-06 | 2013-12-31 | International Business Machines Corporation | Refreshing a full-text search index in a partitioned database |
US9087055B2 (en) * | 2013-01-28 | 2015-07-21 | International Business Machines Corporation | Segmenting documents within a full text index |
CN104657513B (zh) * | 2015-03-20 | 2018-02-09 | 山东威尔数据股份有限公司 | 嵌入式系统中档案操作与快速检索方法 |
CN105404677B (zh) * | 2015-11-20 | 2018-12-18 | 四川神琥科技有限公司 | 一种基于树形结构的检索方法 |
-
2016
- 2016-03-28 CN CN201610182166.9A patent/CN107239454B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101895676A (zh) * | 2010-07-07 | 2010-11-24 | 上海富瀚微电子有限公司 | 一种适用于bm3d实时处理的集合方法 |
CN104636349A (zh) * | 2013-11-07 | 2015-05-20 | 阿里巴巴集团控股有限公司 | 一种索引数据压缩以及索引数据搜索的方法和设备 |
WO2015109250A1 (en) * | 2014-01-20 | 2015-07-23 | Alibaba Group Holding Limited | CREATING NoSQL DATABASE INDEX FOR SEMI-STRUCTURED DATA |
Also Published As
Publication number | Publication date |
---|---|
CN107239454A (zh) | 2017-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2605158B1 (en) | Mixed join of row and column database tables in native orientation | |
Balmin et al. | A framework for using materialized XPath views in XML query processing | |
US7603370B2 (en) | Method for duplicate detection and suppression | |
US7680821B2 (en) | Method and system for index sampled tablescan | |
CA3078018A1 (en) | Scalable analysis platform for semi-structured data | |
CN107844493B (zh) | 一种文件关联方法及系统 | |
US20140122455A1 (en) | Systems and Methods for Intelligent Parallel Searching | |
Xie et al. | Fast and accurate near-duplicate image search with affinity propagation on the ImageWeb | |
US8825665B2 (en) | Database index and database for indexing text documents | |
CN104298736B (zh) | 数据集合连接方法、装置及数据库系统 | |
CN105426529A (zh) | 基于用户搜索意图定位的图像检索方法及系统 | |
CN107239454B (zh) | 基于文本数据库的检索方法及系统 | |
CN108875065B (zh) | 一种基于内容的印尼新闻网页推荐方法 | |
CN111400323A (zh) | 数据检索方法、系统、设备及存储介质 | |
CN103123650A (zh) | 一种基于整数映射的xml数据库全文索引方法 | |
US20180276244A1 (en) | Method and system for searching for similar images that is nearly independent of the scale of the collection of images | |
EP3173947B1 (en) | Paged inverted index | |
CN109830285B (zh) | 一种医学影像文件处理方法和装置 | |
CN104778182A (zh) | 基于HBase的数据导入方法和系统 | |
Kumar et al. | Ontology based semantic indexing approach for information retrieval system | |
CN110083731B (zh) | 图像检索方法、装置、计算机设备及存储介质 | |
Fernando et al. | SimUSF: an efficient and effective similarity measure that is invariant to violations of the interval scale assumption | |
JP2014134920A (ja) | 設計書の検索システム、設計書の検索システムの構築方法およびそのためのプログラム | |
CN112131215B (zh) | 自底向上的数据库信息获取方法及装置 | |
Tao | A dynamic I/O-efficient structure for one-dimensional top-k range reporting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |