CN109710844A - 基于搜索引擎的快速准确定位文件的方法和设备 - Google Patents
基于搜索引擎的快速准确定位文件的方法和设备 Download PDFInfo
- Publication number
- CN109710844A CN109710844A CN201811564827.XA CN201811564827A CN109710844A CN 109710844 A CN109710844 A CN 109710844A CN 201811564827 A CN201811564827 A CN 201811564827A CN 109710844 A CN109710844 A CN 109710844A
- Authority
- CN
- China
- Prior art keywords
- file
- search engine
- quick
- participle
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 230000011218 segmentation Effects 0.000 claims abstract description 38
- 239000012634 fragment Substances 0.000 claims abstract description 29
- 230000006399 behavior Effects 0.000 claims description 6
- 238000012986 modification Methods 0.000 claims description 6
- 230000004048 modification Effects 0.000 claims description 6
- 230000008676 import Effects 0.000 abstract description 2
- 238000013467 fragmentation Methods 0.000 description 3
- 238000006062 fragmentation reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 238000011022 operating instruction Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及基于搜索引擎的快速准确定位文件的方法,包括如下步骤:步骤1、读取本地源文件并载入检索库,其中文件类型包括word、text、ppt、excel、视频和音频;步骤2、对各所述文件进行分段截取,每段生成一文件片段,包括段内容、段行号以及该段所属的文件;步骤3、为所述文件片段添加分词并建立索引文件;步骤4、根据用户的检索词查找与检索词近似的分词,分词所对应的索引文件作为检索结果。本发明采集数据导入检索库,同时对各种文件包括文本、视频、音频,进行分段截取,将文件模块化,生成文件片段,各文件片段对应生成一索引文件,在用户检索时能够精、快、准的定位到用户想要找的目标文件。
Description
技术领域
本发明涉及一种基于搜索引擎的快速准确定位文件的方法和设备,属于信息检索领域。
背景技术
传统的搜索引擎方案是对内部资源的文件名称、标题、创建人、时间等纬度创建索引,方便使用者以关键字的形式定位文件。利用Elasticsearch作为搜索框架,使用java作为开发语言。与google、百度搜索引擎原理类似都是帮助我们用前所未有的速度去处理大规模数据,并支持结构化、非结构化类型数据。
公开号为CN101630315A的发明专利《一种更快速检索方法及系统》,其为解决快速定位信息采用的技术方案是:抽取文档中已标注的待检索对象前若干个字符信息,及已标注的待检索对象后若干个字符信息;将由同一待检索对象抽取的字符信息汇集为一个描述文档,得到该待检索对象对应的描述文档;在所有待检索对象对应的描述文档上建立索引,根据用户的查询词在所有待检索对象对应的描述文档上检索并给出检索结果。该技术方案仅抽取前、后若干字符信息作为描述文档,在描述文档上建立索引,其不能准确且全面反映整个待检索对象所包含的全部信息 ,因此,仍存在漏检,检索结构不准确的问题。
发明内容
为了解决上述技术问题,本发明提供一种基于搜索引擎的快速准确定位文件的方法,其以文件分段的方式对检索库中的文件建立索引文件,不仅能够应用于文本文件,还可以应用于音频、视频文件,实现快速、准确定位文件。
本发明的技术方案一如下:
基于搜索引擎的快速准确定位文件的方法,包括如下步骤:步骤1、读取本地源文件并载入检索库,其中文件类型包括word、text、ppt、excel、视频和音频;
步骤2、对各所述文件进行分段截取,每段生成一文件片段,包括段内容、段行号以及该段所属的文件;
步骤3、将所述文件片段与分词库中的分词进行匹配,将匹配成功的分词添加至文件片段中,然后将该文件片段存入搜索引擎中,生成索引文件;
步骤4、用户输入检索词,利用分词库确定该检索词中包含的分词,查找存在该分词的索引文件,将该些索引文件作为检索结果。
更优地,所述步骤2还包括将文件属性所包含的内容单独生成一文件片段,所述文件属性包括文件标题、创建人、创建时间、修改时间和所属文件。
更优地,所述步骤4中,当用户输入检索词时,根据检索词中所包含的分词在所述文件中出现的频率进行打分,分值权重由系统设定,分值越高,相似度越高,在展示检索结果时,根据分值从高到低排列各索引文件。
更优地,所述word、text类型的文件通过换行标志进行分段截取;所述ppt类型的文件按页分段截取;所述excel类型的文件以行为标志进行分段,每行截取为一个分段文件;所述音频文件将其语音文本根据换行标志进行分段截取;所述视频文件将其字幕根据换行标志进行分段截取。
更优地,在读取本地源文件的过程中,采用批处理程序进行读取。
本发明还提供基于搜索引擎的快速准确定位文件的设备。
本发明技术方案二如下:
基于搜索引擎的快速准确定位文件的设备,包括处理器和存储有运行指令的存储器,所述处理器运行所述指令,执行如下步骤:
步骤1、读取本地源文件并载入检索库,其中文件类型包括word、text、ppt、excel、视频和音频;
步骤2、对各所述文件进行分段截取,每段生成一文件片段,包括段内容、段行号以及该段所属的文件;
步骤3、将所述文件片段与分词库中的分词进行匹配,将匹配成功的分词添加至文件片段中,然后将该文件片段存入搜索引擎中,生成索引文件;
步骤4、用户输入检索词,利用分词库确定该检索词中包含的分词,查找存在该分词的索引文件,将该些索引文件作为检索结果。
更优地,所述步骤2还包括将文件属性所包含的内容单独生成一文件片段,所述文件属性包括文件标题、创建人、创建时间、修改时间和所属文件。
更优地,所述步骤4中,当用户输入检索词时,根据检索词中所包含的分词在所述文件中出现的频率进行打分,分值权重由系统设定,分值越高,相似度越高,在展示检索结果时,根据分值从高到低排列各索引文件。
更优地,所述word、text类型的文件通过换行标志进行分段截取;所述ppt类型的文件按页分段截取;所述excel类型的文件以行为标志进行分段,每行截取为一个分段文件;所述音频文件将其语音文本根据换行标志进行分段截取;所述视频文件将其字幕根据换行标志进行分段截取。
更优地,在读取本地源文件的过程中,采用批处理程序进行读取。
本发明具有如下有益效果:
本发明基于搜索引擎的快速准确定位文件的方法,采集数据导入检索库,同时对各种文件包括文本、视频、音频,进行分段截取,将文件模块化,生成文件片段,各文件片段对应生成一索引文件,从而在用户检索时能够精、快、准的定位到用户想要找的目标文件。
附图说明
图1为本发明基于搜索引擎的快速准确定位文件的方法的流程图;
图2为本发明搜索文档的结果示意图;
图3为本发明搜索视频的结果示意图。
具体实施方式
下面结合附图和具体实施例来对本发明进行详细的说明。
实施例一
请参阅图1,一种基于搜索引擎的快速准确定位文件的方法,包括如下步骤:
步骤1、读取本地源文件并载入检索库,其中文件类型包括word、text、ppt、excel、视频和音频;在读取本地源文件的过程中,可以采用批处理程序进行读取,批处理主要是解决了单线程处理文件速度比较慢,设置了多线程模式可以快速加载文件到内存中,供程序转换使用;
步骤2、对各所述文件进行分段截取,每段生成一文件片段,包括段内容、段行号以及该段所属的文件;本发明还可以将文件属性所包含的内容单独生成一文件片段,所述文件属性包括文件标题、创建人、创建时间、修改时间和所属文件。在生成文件片段时,原文件保持不变,仅是将分段截取后每段内容重新生成一个文件片段;
步骤3、将所述文件片段与分词库中的分词进行匹配,将匹配成功的分词添加至文件片段中,然后将该文件片段存入搜索引擎中,生成索引文件;
步骤4、用户输入检索词,利用分词库确定该检索词中包含的分词,查找存在该分词的索引文件,将该些索引文件作为检索结果。当用户点击索引文件时,从检索库中读取对应该索引文件的源文件。
当用户输入检索词时,根据检索词中所包含的分词在所述文件中出现的频率进行打分,分值权重由系统设定,分值越高,相似度越高,在展示检索结果时,根据分值从高到低排列各索引文件。例如,如果该分词位于文件的标题位置,其权重值越大,分值就越高。
在本实施例中,将文件进行分段截取,方便存储和定位文件,且能够定位检索词在文件及文件内容中的位置,实现快速定位的同时确保检索的正确性和全面性。
所述word、text类型的文件通过换行标志进行分段截取;所述ppt类型的文件按页分段截取;所述excel类型的文件以行为标志进行分段,每行截取为一个分段文件;所述音频文件将其语音文本(例如歌曲,存在对应的歌词)根据换行标志进行分段截取,由于每一段语音都对应存在时间戳,定位到语音文中的某一段,即可根据其时间戳找到对应的语音位置;所述视频文件将其字幕,根据换行标志进行分段截取,由于每一段字幕都对应存在时间戳,定位到字幕中的某一段,即可根据其时间戳找到对应的视频位置。通过上述分段截取方式,即可完成几乎所有文件的文件模块化处理。
请参阅图2,用户输入检索词“小微企业”搜索文档,在分词库中,存在“小”“微”“企业”这几个分词,因此在检索结果中,存在该些分词的索引文件就出现在检索结果中。请参阅图3,用户输入检索词“小微企业”搜索视频,系统不仅可以根据字幕中是否存在该分词进行检索,还可以根据视频对应的文件属性(文件属性中包含标题信息)生成的文件片段中是否包含该分词进行检索,当视频文件不存在对应字幕时,就可以检索由视频的文件属性生成的索引文件是否包含该分词进行检索。
本发明基于搜索引擎的快速准确定位文件的方法,利用文件内容或者创建人,时间等多个纬度一键检索,将文件分段截取,实现文件模块化,从而精、快、准的定位到用户想要找的目标文件。
实施例二
请参阅图1,基于搜索引擎的快速准确定位文件的设备,包括处理器和存储有运行指令的存储器,所述处理器运行所述指令,执行如下步骤:
步骤1、读取本地源文件并载入检索库,其中文件类型包括word、text、ppt、excel、视频和音频;在读取本地源文件的过程中,采用批处理程序进行读取。批处理主要是解决了单线程处理文件速度比较慢,设置了多线程模式可以快速加载文件到内存中,供程序转换使用;
步骤2、对各所述文件进行分段截取,每段生成一文件片段,包括段内容、段行号以及该段所属的文件;本发明还可以将文件属性所包含的内容单独生成一文件片段,所述文件属性包括文件标题、创建人、创建时间、修改时间和所属文件。在生成文件片段时,原文件保持不变,仅是将分段截取后每段内容重新生成一个文件片段;
步骤3、将所述文件片段与分词库中的分词进行匹配,将匹配成功的分词添加至文件片段中,然后将该文件片段存入搜索引擎中,生成索引文件;
步骤4、用户输入检索词,利用分词库确定该检索词中包含的分词,查找存在该分词的索引文件,将该些索引文件作为检索结果。
当用户输入检索词时,根据检索词中所包含的分词在所述文件中出现的频率进行打分,分值权重由系统设定,分值越高,相似度越高,在展示检索结果时,根据分值从高到低排列各索引文件。
所述word、text类型的文件通过换行标志进行分段截取;所述ppt类型的文件按页分段截取;所述excel类型的文件以行为标志进行分段,每行截取为一个分段文件;所述音频文件将其语音文本(例如歌曲,存在对应的歌词)根据换行标志进行分段截取,由于每一段语音都对应存在时间戳,定位到语音文中的某一段,即可根据其时间戳找到对应的语音位置;所述视频文件将其字幕,根据换行标志进行分段截取,由于每一段字幕都对应存在时间戳,定位到字幕中的某一段,即可根据其时间戳找到对应的视频位置。通过上述分段截取方式,即可完成几乎所有文件的文件模块化处理。
本发明基于搜索引擎的快速准确定位文件的方法,利用文件内容或者创建人,时间等多个纬度一键检索,将文件分段截取,实现文件模块化,从而精、快、准的定位到用户想要找的目标文件。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.基于搜索引擎的快速准确定位文件的方法,其特征在于:包括如下步骤:步骤1、读取本地源文件并载入检索库,其中文件类型包括word、text、ppt、excel、视频和音频;
步骤2、对各所述文件进行分段截取,每段生成一文件片段,包括段内容、段行号以及该段所属的文件;
步骤3、将所述文件片段与分词库中的分词进行匹配,将匹配成功的分词添加至文件片段中,然后将该文件片段存入搜索引擎中,生成索引文件;
步骤4、用户输入检索词,利用分词库确定该检索词中包含的分词,查找存在该分词的索引文件,将该些索引文件作为检索结果。
2.根据权利要求1所述的基于搜索引擎的快速准确定位文件的方法,其特征在于:所述步骤2还包括将文件属性所包含的内容单独生成一文件片段,所述文件属性包括文件标题、创建人、创建时间、修改时间和所属文件。
3.根据权利要求1所述的基于搜索引擎的快速准确定位文件的方法,其特征在于:所述步骤4中,当用户输入检索词时,根据检索词中所包含的分词在所述文件中出现的频率进行打分,分值权重由系统设定,分值越高,相似度越高,在展示检索结果时,根据分值从高到低排列各索引文件。
4.根据权利要求1所述的基于搜索引擎的快速准确定位文件的方法,其特征在于:所述word、text类型的文件通过换行标志进行分段截取;所述ppt类型的文件按页分段截取;所述excel类型的文件以行为标志进行分段,每行截取为一个分段文件;所述音频文件将其语音文本根据换行标志进行分段截取;所述视频文件将其字幕根据换行标志进行分段截取。
5.根据权利要求1所述的基于搜索引擎的快速准确定位文件的方法,其特征在于:在读取本地源文件的过程中,采用批处理程序进行读取。
6.基于搜索引擎的快速准确定位文件的设备,其特征在于:包括处理器和存储有运行指令的存储器,所述处理器运行所述指令,执行如下步骤:
步骤1、读取本地源文件并载入检索库,其中文件类型包括word、text、ppt、excel、视频和音频;
步骤2、对各所述文件进行分段截取,每段生成一文件片段,包括段内容、段行号以及该段所属的文件;
步骤3、将所述文件片段与分词库中的分词进行匹配,将匹配成功的分词添加至文件片段中,然后将该文件片段存入搜索引擎中,生成索引文件;
步骤4、用户输入检索词,利用分词库确定该检索词中包含的分词,查找存在该分词的索引文件,将该些索引文件作为检索结果。
7.根据权利要求6所述的基于搜索引擎的快速准确定位文件的设备,其特征在于:所述步骤2还包括将文件属性所包含的内容单独生成一文件片段,所述文件属性包括文件标题、创建人、创建时间、修改时间和所属文件。
8.根据权利要求6所述的基于搜索引擎的快速准确定位文件的设备,其特征在于:所述步骤4中,当用户输入检索词时,根据检索词中所包含的分词在所述文件中出现的频率进行打分,分值权重由系统设定,分值越高,相似度越高,在展示检索结果时,根据分值从高到低排列各索引文件。
9.根据权利要求6所述的基于搜索引擎的快速准确定位文件的设备,其特征在于:所述word、text类型的文件通过换行标志进行分段截取;所述ppt类型的文件按页分段截取;所述excel类型的文件以行为标志进行分段,每行截取为一个分段文件;所述音频文件将其语音文本根据换行标志进行分段截取;所述视频文件将其字幕根据换行标志进行分段截取。
10.根据权利要求6所述的基于搜索引擎的快速准确定位文件的设备,其特征在于:在读取本地源文件的过程中,采用批处理程序进行读取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811564827.XA CN109710844A (zh) | 2018-12-20 | 2018-12-20 | 基于搜索引擎的快速准确定位文件的方法和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811564827.XA CN109710844A (zh) | 2018-12-20 | 2018-12-20 | 基于搜索引擎的快速准确定位文件的方法和设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109710844A true CN109710844A (zh) | 2019-05-03 |
Family
ID=66256889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811564827.XA Withdrawn CN109710844A (zh) | 2018-12-20 | 2018-12-20 | 基于搜索引擎的快速准确定位文件的方法和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109710844A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113051227A (zh) * | 2021-04-20 | 2021-06-29 | 中国工商银行股份有限公司 | 文件查找方法及装置 |
CN114564628A (zh) * | 2022-03-09 | 2022-05-31 | 云学堂信息科技(江苏)有限公司 | 基于企业培训的高效型知识库深度检索方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030004947A1 (en) * | 2001-06-28 | 2003-01-02 | Sun Microsystems, Inc. | Method, system, and program for managing files in a file system |
CN101021855A (zh) * | 2006-10-11 | 2007-08-22 | 鲍东山 | 基于内容的视频检索系统 |
CN102867042A (zh) * | 2012-09-03 | 2013-01-09 | 北京奇虎科技有限公司 | 多媒体文件搜索方法及装置 |
CN103440253A (zh) * | 2013-07-25 | 2013-12-11 | 清华大学 | 语音检索方法及系统 |
CN107027060A (zh) * | 2017-04-18 | 2017-08-08 | 腾讯科技(深圳)有限公司 | 视频片段的确定方法和装置 |
CN108363682A (zh) * | 2018-02-11 | 2018-08-03 | 广州数知科技有限公司 | 一种目标文本显示方法及装置 |
-
2018
- 2018-12-20 CN CN201811564827.XA patent/CN109710844A/zh not_active Withdrawn
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030004947A1 (en) * | 2001-06-28 | 2003-01-02 | Sun Microsystems, Inc. | Method, system, and program for managing files in a file system |
CN101021855A (zh) * | 2006-10-11 | 2007-08-22 | 鲍东山 | 基于内容的视频检索系统 |
CN102867042A (zh) * | 2012-09-03 | 2013-01-09 | 北京奇虎科技有限公司 | 多媒体文件搜索方法及装置 |
CN103440253A (zh) * | 2013-07-25 | 2013-12-11 | 清华大学 | 语音检索方法及系统 |
CN107027060A (zh) * | 2017-04-18 | 2017-08-08 | 腾讯科技(深圳)有限公司 | 视频片段的确定方法和装置 |
CN108363682A (zh) * | 2018-02-11 | 2018-08-03 | 广州数知科技有限公司 | 一种目标文本显示方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113051227A (zh) * | 2021-04-20 | 2021-06-29 | 中国工商银行股份有限公司 | 文件查找方法及装置 |
CN114564628A (zh) * | 2022-03-09 | 2022-05-31 | 云学堂信息科技(江苏)有限公司 | 基于企业培训的高效型知识库深度检索方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10169337B2 (en) | Converting data into natural language form | |
US8335787B2 (en) | Topic word generation method and system | |
US8126897B2 (en) | Unified inverted index for video passage retrieval | |
US11222053B2 (en) | Searching multilingual documents based on document structure extraction | |
US8731930B2 (en) | Contextual voice query dilation to improve spoken web searching | |
CN108932218B (zh) | 一种实例扩展方法、装置、设备和介质 | |
US20160188569A1 (en) | Generating a Table of Contents for Unformatted Text | |
US20140181099A1 (en) | User management of electronic documents | |
CN107943919B (zh) | 一种面向会话式实体搜索的查询扩展方法 | |
US11532333B1 (en) | Smart summarization, indexing, and post-processing for recorded document presentation | |
US20120179709A1 (en) | Apparatus, method and program product for searching document | |
US8862556B2 (en) | Difference analysis in file sub-regions | |
CN117035078A (zh) | 一种多模态知识图谱统一表示学习框架 | |
CN109710844A (zh) | 基于搜索引擎的快速准确定位文件的方法和设备 | |
CN116521626A (zh) | 一种基于内容检索的个人知识管理方法及系统 | |
JP2960936B2 (ja) | 係り受け解析装置 | |
CN105426490A (zh) | 一种基于树形结构的索引方法 | |
CN114676155A (zh) | 代码提示信息的确定方法、数据集的确定方法及电子设备 | |
JP2009282903A (ja) | 知識抽出・検索装置およびその方法 | |
CN108932326B (zh) | 一种实例扩展方法、装置、设备和介质 | |
CN116304156A (zh) | 图片检索方法、装置、电子设备和存储介质 | |
JP2005234688A (ja) | 重要言語識別方法、重要言語識別プログラム、重要言語識別装置、文書検索装置およびキーワード抽出装置 | |
JP2004206608A (ja) | 文書検索方法及び装置並びにプログラム | |
CN116975202A (zh) | 文档检索方法、装置、设备及存储介质 | |
CN118093809A (zh) | 文档搜索方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20190503 |
|
WW01 | Invention patent application withdrawn after publication |