CN101576897A - 文件内容检索系统及方法 - Google Patents

文件内容检索系统及方法 Download PDF

Info

Publication number
CN101576897A
CN101576897A CNA2008103015268A CN200810301526A CN101576897A CN 101576897 A CN101576897 A CN 101576897A CN A2008103015268 A CNA2008103015268 A CN A2008103015268A CN 200810301526 A CN200810301526 A CN 200810301526A CN 101576897 A CN101576897 A CN 101576897A
Authority
CN
China
Prior art keywords
phrase
file
retrieving information
dictionary
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2008103015268A
Other languages
English (en)
Inventor
常小军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Original Assignee
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hongfujin Precision Industry Shenzhen Co Ltd, Hon Hai Precision Industry Co Ltd filed Critical Hongfujin Precision Industry Shenzhen Co Ltd
Priority to CNA2008103015268A priority Critical patent/CN101576897A/zh
Publication of CN101576897A publication Critical patent/CN101576897A/zh
Pending legal-status Critical Current

Links

Images

Abstract

一种文件内容检索方法,该方法包括如下步骤:依次获取词库中所有词组;获取计算机主机中所存储的需进行内容检索文件的格式,并根据获取的文件格式打开需进行内容检索文件以获取文件内容;根据所获取的词库中的所有词组及从词库中获取词组的顺序依次对所述需进行内容检索文件的内容进行检索以生成各个词组对应的检索信息,并根据生成的检索信息为所述需进行内容检索文件建立一个以词库中的词组为目录的检索信息表;将所述检索信息表保存至该检索信息库中;输入需检索的词组;在词库中查询所输入词组;及根据所述词组在检索信息库中查询该词组所对应的检索信息。另外,本发明还提供一种文件内容检索系统。

Description

文件内容检索系统及方法
技术领域
本发明涉及一种文件内容检索系统及方法。
背景技术
随着计算机技术的普及与发展,电子文件在我们的工作与生活中被广泛应用,逐步取代传统的纸本文件。信息的e化大大加速了信息传递的速度,降低了成本,同时也提高了我们的工作效率。
但在我们享受它为我们带来巨大便利的同时,如何高效率的查找和利用我们的电子文件资料成为不得不解决的问题。传统的文件索引系统将文件资料全部导入数据库,利用数据库的强大搜索功能完成文件索引。然而,将硬盘中的资料导入到数据库里以利于文件索引作业,工作量很大,同时造成资源浪费,并且当文件资料中带有图片时,图片必须通过程序来查看,还没有直接存放在硬盘上查看更方便,其效果并不理想。
发明内容
鉴于以上内容,有必要提供一种文件内容检索系统,可以建立一个比较全面的词库,根据该词库中词组依次对文件内容进行检索,得到一个以词库中词组为目录的检索信息表,以备用户在对文件进行检索时直接调用,提高了工作效率。
鉴于以上内容,有必要提供一种文件内容检索方法,可以建立一个比较全面的词库,根据该词库中词组依次对文件内容进行检索,得到一个以词库中词组为目录的检索信息表,以备用户在对文件进行检索时直接调用,提高了工作效率。
一种文件内容检索系统,包括计算机主机及与该计算机主机相连的词库及检索信息库,该计算机主机包括:获取模块,用于依次获取该词库中所有词组,及获取该计算机主机中所存储的需进行内容检索文件的格式,并根据获取的文件格式打开需进行内容检索文件以获取文件内容;检索模块,用于根据所获取的词库中的词组及从词库中获取词组的顺序依次对所述需进行内容检索文件的内容进行检索以生成各个词组对应的检索信息,并根据生成的检索信息为所述需进行内容检索文件建立一个以词库中的词组为目录的检索信息表;保存模块,用于将所述检索信息表保存至该检索信息库中;输入模块,用于输入需检索的词组;及查询模块,用于在词库中查询所输入词组,及根据所述词组在检索信息库中查询该词组所对应的检索信息。
一种文件内容检索方法,该方法包括如下步骤:依次获取词库中所有词组;获取计算机主机中所存储的需进行内容检索文件的格式,并根据获取的文件格式打开需进行内容检索文件以获取文件内容;根据所获取的词库中的所有词组及从词库中获取词组的顺序依次对所述需进行内容检索文件的内容进行检索以生成各个词组对应的检索信息,并根据生成的检索信息为所述需进行内容检索文件建立一个以词库中的词组为目录的检索信息表;将所述检索信息表保存至该检索信息库中;输入需检索的词组;在词库中查询所输入词组;及根据所述词组在检索信息库中查询该词组所对应的检索信息。
相较于现有技术,本发明所提供的文件内容检索系统及方法,可根据词库中词组对文件内容进行检索,得到一个以词库中词组为目录的检索信息表,以备用户在对文件进行检索时直接调用,提高了工作效率。
附图说明
图1是本发明文件内容检索系统较佳实施例的硬件架构图。
图2是图1中计算机主机的功能模块图。
图3是本发明文件内容检索方法较佳实施例的流程图。
具体实施方式
如图1所示,是本发明文件内容检索系统较佳实施例的系统架构图。该系统主要包括计算机主机1、词库2、检索信息库3、显示器4、键盘5及鼠标6。该词库2及检索信息库3分别与该计算机主机1相连,该词库2用于存储常用的词组,该检索信息库4用于存储对文件内容进行检索的结果。该计算机主机1根据词库2中所有词组对该计算机主机1中需进行内容检索文件的内容进行检索,并将检索的结果保存至检索信息库3中。所述显示器4、键盘5及鼠标6分别与计算机主机1相连,用于在文件内容检索过程中相关信息的输入和输出。
如图2所示,是图1中计算机主机1的功能模块图。所述计算机主机1包括判断模块10、更新模块12、获取模块14、检索模块16、保存模块18、输入模块20、查询模块22及显示模块24。
所述判断模块10用于判断该系统中是否出现新的词组。当用户输入的检索词组不存在于词库2中时,判断模块12判断该系统中出现新的词组;当用户输入的检索词组存在于词库2中时,判断模块12判断该系统中没有出现新的词组。
所述更新模块12用于当该系统中出现新的词组时,将所述新的词组更新至该词库2中。
所述获取模块14用于依次获取该词库2中所有词组。
所述获取模块14还用于获取计算机主机1中所存储的需进行内容检索文件的格式,并根据获取的文件格式打开需进行内容检索文件以获取文件内容。所述需进行内容检索文件包括,但不限于,后缀名为.DOC的文件,后缀名为.PDF的文件,各种格式的图片及Excel文件。
所述检索模块16用于根据所获取的词库2中的词组及从词库2中获取词组的顺序依次对所述需进行内容检索文件的内容进行检索得到检索信息表。所述检索模块16依次检索所获取词组出现的文件名称和路径、在对应文件中出现的频率和相对应的位置以生成各个词组对应的检索信息,并按照从词库中获取词组的顺序对生成的各个词组对应的检索信息进行归纳和记录,对所述需进行内容检索文件建立一个以词库2中的词组为目录的检索信息表。所述检索信息包括词组出现的文件名称和路径、词组在文件中出现的频率和相对应的位置。该检索信息表包括,但不限于,各个词组对应的标识符,每一个标识符对应的词组的检索信息,即每一个标识符对应的词组出现的文件名称和路径,每一个标识符对应的词组在对应文件中出现的频率及相对应的位置。
所述保存模块18用于将所述检索信息表保存至检索信息库3中。
所述输入模块20用于用户输入需检索的词组。
所述查询模块22用于在词库中查询所输入词组的标识符。
所述查询模块22还用于根据输入词组的标识符在检索信息库3中查询该标识符所对应的检索信息。
所述显示模块24用于将所述查询到的检索信息以列表形式显示出来。所述列表包括用户输入的检索词组、输入的检索词组出现的文件名称和路径、输入的检索词组在每一个文件中出现的频率及相应位置。该列表中各文件的排列顺序可按照输入的检索词组在各文件中出现的频率从大到小的顺序确定。
如图3所示,是本发明文件内容检索方法较佳实施例的流程图。首先,步骤S10,判断模块10判断该系统中是否出现新的词组。当用户输入的检索词组不存在于词库2中时,判断模块10判断该系统中出现新的词组;当用户输入的检索词组存在于词库2中时,判断模块12判断该系统中没有出现新的词组。
步骤S12,当该系统中出现新的词组时,更新模块12将所述新的词组更新至该词库2中。
步骤S14,获取模块14依次获取该词库2中所有词组。
步骤S16,获取模块14获取该计算机主机1中所存储的需进行内容检索文件的格式,并根据获取的文件格式打开需进行内容检索文件以获取文件内容。
步骤S18,检索模块16根据所获取的词库2中的词组及从词库2中获取词组的顺序依次对所述需进行内容检索文件的内容进行检索得到检索信息表。所述检索模块16依次检索所获取词组出现的文件名称和路径、在对应文件中出现的频率和相对应的位置以生成各个词组对应的检索信息,并按照从词库中获取词组的顺序对生成的各个词组对应的检索信息进行归纳和记录,对所述需进行内容检索文件建立一个以词库中的词组为目录的检索信息表。所述检索信息包括词组出现的文件名称和路径、词组在文件中出现的频率和相对应的位置。该检索信息表包括,但不限于,各个词组对应的标识符,每一个标识符对应的词组的检索信息,即每一个标识符对应的词组出现的文件名称和路径,每一个标识符对应的词组在对应文件中出现的频率及相对应的位置。
步骤S20,保存模块18将所述检索信息表保存至检索信息库3中。
步骤S22,用户利用输入模块20输入需检索的词组。
步骤S24,查询模块22在词库中查询所输入词组的标识符。
步骤S26,查询模块22根据输入词组的标识符在检索信息库3中查询该标识符所对应的检索信息。
步骤S28,显示模块24将所述查询到的检索信息以列表形式显示出来。所述列表包括用户输入的检索词组、输入的检索词组出现的文件名称和路径、输入的检索词组在每一个文件中出现的频率及相应位置。该列表中各文件的排列顺序可按照输入的检索词组在各文件中出现的频率从大到小的顺序确定。

Claims (10)

1.一种文件内容检索系统,包括计算机主机及与该计算机主机相连的词库及检索信息库,其特征在于,该计算机主机包括:
获取模块,用于依次获取该词库中所有词组,及获取该计算机主机中所存储的需进行内容检索文件的格式,并根据获取的文件格式打开需进行内容检索文件以获取文件内容;
检索模块,用于根据所获取的词库中的词组及从词库中获取词组的顺序依次对所述需进行内容检索文件的内容进行检索以生成各个词组对应的检索信息,并根据生成的检索信息为所述需进行内容检索文件建立一个以词库中的词组为目录的检索信息表;
保存模块,用于将所述检索信息表保存至该检索信息库中;
输入模块,用于输入需检索的词组;及
查询模块,用于在词库中查询所输入词组,及根据所述词组在检索信息库中查询该词组所对应的检索信息。
2.如权利要求1所述的文件内容检索系统,其特征在于,该系统还包括:
更新模块,用于当该系统中出现新的词组时,将所述新的词组更新至该词库中。
3.如权利要求1所述的文件内容检索系统,其特征在于,该系统还包括:
显示模块,用于将所述查询到的检索信息以列表形式显示出来。
4.如权利要求1,2或3所述的文件内容检索系统,其特征在于,所述检索信息表包括各个词组对应的标识符,及每一个标识符对应的词组的检索信息,在检索信息表中查询该词组所对应的检索信息是根据该词组所对应的标识符进行。
5.如权利要求4所述的文件内容检索系统,其特征在于,所述检索信息包括词组出现的文件名称和路径、词组在文件中出现的频率和相对应的位置。
6.一种文件内容检索方法,其特征在于,该方法包括如下步骤:
依次获取词库中所有词组;
获取计算机主机中所存储的需进行内容检索文件的格式,并根据获取的文件格式打开需进行内容检索文件以获取文件内容;
根据所获取的词库中的所有词组及从词库中获取词组的顺序依次对所述需进行内容检索文件的内容进行检索以生成各个词组对应的检索信息,并根据生成的检索信息为所述需进行内容检索文件建立一个以词库中的词组为目录的检索信息表;
将所述检索信息表保存至该检索信息库中;
输入需检索的词组;
在词库中查询所输入词组;及
根据所述词组在检索信息库中查询该词组所对应的检索信息。
7.如权利要求6所述的文件内容检索方法,其特征在于,在依次获取该词库中所有词组的步骤之前还包括步骤:
当系统中出现新的词组时,将所述新的词组更新至词库中;
8.如权利要求6所述的文件内容检索方法,其特征在于,该方法还包括步骤:
将所述查询到的检索信息以列表形式显示出来。
9.如权利要求6,7或8所述的文件内容检索方法,其特征在于,所述检索信息表包括各个词组对应的标识符,及每一个标识符对应的词组的检索信息,在检索信息表中查询该词组所对应的检索信息是根据该词组所对应的标识符进行。
10.如权利要求9所述的文件内容检索方法,其特征在于,所述检索信息包括词组出现的文件名称和路径、词组在文件中出现的频率和相对应的位置。
CNA2008103015268A 2008-05-09 2008-05-09 文件内容检索系统及方法 Pending CN101576897A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2008103015268A CN101576897A (zh) 2008-05-09 2008-05-09 文件内容检索系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2008103015268A CN101576897A (zh) 2008-05-09 2008-05-09 文件内容检索系统及方法

Publications (1)

Publication Number Publication Date
CN101576897A true CN101576897A (zh) 2009-11-11

Family

ID=41271830

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2008103015268A Pending CN101576897A (zh) 2008-05-09 2008-05-09 文件内容检索系统及方法

Country Status (1)

Country Link
CN (1) CN101576897A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081649A (zh) * 2010-12-31 2011-06-01 深圳联友科技有限公司 一种搜索电脑文件的方法及其系统
WO2011140766A1 (zh) * 2010-05-11 2011-11-17 中兴通讯股份有限公司 终端设备及其词库更新的方法
CN102541888A (zh) * 2010-12-20 2012-07-04 鸿富锦精密工业(深圳)有限公司 专利电子文件解析系统及方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011140766A1 (zh) * 2010-05-11 2011-11-17 中兴通讯股份有限公司 终端设备及其词库更新的方法
CN102541888A (zh) * 2010-12-20 2012-07-04 鸿富锦精密工业(深圳)有限公司 专利电子文件解析系统及方法
CN102081649A (zh) * 2010-12-31 2011-06-01 深圳联友科技有限公司 一种搜索电脑文件的方法及其系统
CN102081649B (zh) * 2010-12-31 2012-08-15 深圳联友科技有限公司 一种搜索电脑文件的方法及其系统

Similar Documents

Publication Publication Date Title
US7822710B1 (en) System and method for data collection
CN105868204B (zh) 一种转换Oracle脚本语言SQL的方法及装置
JP3216708B2 (ja) 多段式知能的文字列比較方法
CN106294695A (zh) 一种面向实时大数据搜索引擎的实现方法
CN104657439A (zh) 用于自然语言精准检索的结构化查询语句生成系统及方法
CN104657440A (zh) 结构化查询语句生成系统及方法
US20060200452A1 (en) Method for translating syntax of patent information search
CN110597844B (zh) 异构数据库数据统一访问方法及相关设备
CN114356971A (zh) 数据处理方法、装置以及系统
JP4207438B2 (ja) Xml文書格納/検索装置及びそれに用いるxml文書格納/検索方法並びにそのプログラム
CN112860727A (zh) 基于大数据查询引擎的数据查询方法、装置、设备及介质
CN100397397C (zh) 基于关系数据库的xml数据存储与访问方法
US20140067853A1 (en) Data search method, information system, and recording medium storing data search program
CN108334620A (zh) 一种基于orm框架操作集群数据库的方法及装置
US20110302220A1 (en) Sql processing for data conversion
US9342545B2 (en) Using a partially built index in a computer database system
CN107729428A (zh) 一种基于Presto和Elasticsearch的SQL查询方法
CN101576897A (zh) 文件内容检索系统及方法
CN101719162A (zh) 基于片段模式匹配的多版本开放式地理信息服务访问方法及系统
CN104123354A (zh) 一种基于MySQL数据库的查询优化方法
KR20180077830A (ko) 비공유 아키텍처 기반의 분산 스트림 처리 엔진에서 관계형 질의를 처리하는 방법, 이를 수행하기 위한 기록 매체 및 장치
CN116049232A (zh) 一种子查询抽取方法、装置、电子设备和存储介质
CN110147396B (zh) 一种映射关系生成方法及装置
CN116049193A (zh) 数据存储方法及装置
CN115168623A (zh) 一种水利行业标准全文检索方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20091111