CN109710844A - 基于搜索引擎的快速准确定位文件的方法和设备 - Google Patents

基于搜索引擎的快速准确定位文件的方法和设备 Download PDF

Info

Publication number
CN109710844A
CN109710844A CN201811564827.XA CN201811564827A CN109710844A CN 109710844 A CN109710844 A CN 109710844A CN 201811564827 A CN201811564827 A CN 201811564827A CN 109710844 A CN109710844 A CN 109710844A
Authority
CN
China
Prior art keywords
file
search engine
quick
participle
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201811564827.XA
Other languages
English (en)
Inventor
陈云龙
张建
陈章辉
尤毅
刘洋邑
陈锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Banking Regulatory Commission Fujian Regulatory Authority
Industrial Bank Co Ltd
Original Assignee
China Banking Regulatory Commission Fujian Regulatory Authority
Industrial Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Banking Regulatory Commission Fujian Regulatory Authority, Industrial Bank Co Ltd filed Critical China Banking Regulatory Commission Fujian Regulatory Authority
Priority to CN201811564827.XA priority Critical patent/CN109710844A/zh
Publication of CN109710844A publication Critical patent/CN109710844A/zh
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及基于搜索引擎的快速准确定位文件的方法,包括如下步骤:步骤1、读取本地源文件并载入检索库,其中文件类型包括word、text、ppt、excel、视频和音频;步骤2、对各所述文件进行分段截取,每段生成一文件片段,包括段内容、段行号以及该段所属的文件;步骤3、为所述文件片段添加分词并建立索引文件;步骤4、根据用户的检索词查找与检索词近似的分词,分词所对应的索引文件作为检索结果。本发明采集数据导入检索库,同时对各种文件包括文本、视频、音频,进行分段截取,将文件模块化,生成文件片段,各文件片段对应生成一索引文件,在用户检索时能够精、快、准的定位到用户想要找的目标文件。

Description

基于搜索引擎的快速准确定位文件的方法和设备
技术领域
本发明涉及一种基于搜索引擎的快速准确定位文件的方法和设备,属于信息检索领域。
背景技术
传统的搜索引擎方案是对内部资源的文件名称、标题、创建人、时间等纬度创建索引,方便使用者以关键字的形式定位文件。利用Elasticsearch作为搜索框架,使用java作为开发语言。与google、百度搜索引擎原理类似都是帮助我们用前所未有的速度去处理大规模数据,并支持结构化、非结构化类型数据。
公开号为CN101630315A的发明专利《一种更快速检索方法及系统》,其为解决快速定位信息采用的技术方案是:抽取文档中已标注的待检索对象前若干个字符信息,及已标注的待检索对象后若干个字符信息;将由同一待检索对象抽取的字符信息汇集为一个描述文档,得到该待检索对象对应的描述文档;在所有待检索对象对应的描述文档上建立索引,根据用户的查询词在所有待检索对象对应的描述文档上检索并给出检索结果。该技术方案仅抽取前、后若干字符信息作为描述文档,在描述文档上建立索引,其不能准确且全面反映整个待检索对象所包含的全部信息 ,因此,仍存在漏检,检索结构不准确的问题。
发明内容
为了解决上述技术问题,本发明提供一种基于搜索引擎的快速准确定位文件的方法,其以文件分段的方式对检索库中的文件建立索引文件,不仅能够应用于文本文件,还可以应用于音频、视频文件,实现快速、准确定位文件。
本发明的技术方案一如下:
基于搜索引擎的快速准确定位文件的方法,包括如下步骤:步骤1、读取本地源文件并载入检索库,其中文件类型包括word、text、ppt、excel、视频和音频;
步骤2、对各所述文件进行分段截取,每段生成一文件片段,包括段内容、段行号以及该段所属的文件;
步骤3、将所述文件片段与分词库中的分词进行匹配,将匹配成功的分词添加至文件片段中,然后将该文件片段存入搜索引擎中,生成索引文件;
步骤4、用户输入检索词,利用分词库确定该检索词中包含的分词,查找存在该分词的索引文件,将该些索引文件作为检索结果。
更优地,所述步骤2还包括将文件属性所包含的内容单独生成一文件片段,所述文件属性包括文件标题、创建人、创建时间、修改时间和所属文件。
更优地,所述步骤4中,当用户输入检索词时,根据检索词中所包含的分词在所述文件中出现的频率进行打分,分值权重由系统设定,分值越高,相似度越高,在展示检索结果时,根据分值从高到低排列各索引文件。
更优地,所述word、text类型的文件通过换行标志进行分段截取;所述ppt类型的文件按页分段截取;所述excel类型的文件以行为标志进行分段,每行截取为一个分段文件;所述音频文件将其语音文本根据换行标志进行分段截取;所述视频文件将其字幕根据换行标志进行分段截取。
更优地,在读取本地源文件的过程中,采用批处理程序进行读取。
本发明还提供基于搜索引擎的快速准确定位文件的设备。
本发明技术方案二如下:
基于搜索引擎的快速准确定位文件的设备,包括处理器和存储有运行指令的存储器,所述处理器运行所述指令,执行如下步骤:
步骤1、读取本地源文件并载入检索库,其中文件类型包括word、text、ppt、excel、视频和音频;
步骤2、对各所述文件进行分段截取,每段生成一文件片段,包括段内容、段行号以及该段所属的文件;
步骤3、将所述文件片段与分词库中的分词进行匹配,将匹配成功的分词添加至文件片段中,然后将该文件片段存入搜索引擎中,生成索引文件;
步骤4、用户输入检索词,利用分词库确定该检索词中包含的分词,查找存在该分词的索引文件,将该些索引文件作为检索结果。
更优地,所述步骤2还包括将文件属性所包含的内容单独生成一文件片段,所述文件属性包括文件标题、创建人、创建时间、修改时间和所属文件。
更优地,所述步骤4中,当用户输入检索词时,根据检索词中所包含的分词在所述文件中出现的频率进行打分,分值权重由系统设定,分值越高,相似度越高,在展示检索结果时,根据分值从高到低排列各索引文件。
更优地,所述word、text类型的文件通过换行标志进行分段截取;所述ppt类型的文件按页分段截取;所述excel类型的文件以行为标志进行分段,每行截取为一个分段文件;所述音频文件将其语音文本根据换行标志进行分段截取;所述视频文件将其字幕根据换行标志进行分段截取。
更优地,在读取本地源文件的过程中,采用批处理程序进行读取。
本发明具有如下有益效果:
本发明基于搜索引擎的快速准确定位文件的方法,采集数据导入检索库,同时对各种文件包括文本、视频、音频,进行分段截取,将文件模块化,生成文件片段,各文件片段对应生成一索引文件,从而在用户检索时能够精、快、准的定位到用户想要找的目标文件。
附图说明
图1为本发明基于搜索引擎的快速准确定位文件的方法的流程图;
图2为本发明搜索文档的结果示意图;
图3为本发明搜索视频的结果示意图。
具体实施方式
下面结合附图和具体实施例来对本发明进行详细的说明。
实施例一
请参阅图1,一种基于搜索引擎的快速准确定位文件的方法,包括如下步骤:
步骤1、读取本地源文件并载入检索库,其中文件类型包括word、text、ppt、excel、视频和音频;在读取本地源文件的过程中,可以采用批处理程序进行读取,批处理主要是解决了单线程处理文件速度比较慢,设置了多线程模式可以快速加载文件到内存中,供程序转换使用;
步骤2、对各所述文件进行分段截取,每段生成一文件片段,包括段内容、段行号以及该段所属的文件;本发明还可以将文件属性所包含的内容单独生成一文件片段,所述文件属性包括文件标题、创建人、创建时间、修改时间和所属文件。在生成文件片段时,原文件保持不变,仅是将分段截取后每段内容重新生成一个文件片段;
步骤3、将所述文件片段与分词库中的分词进行匹配,将匹配成功的分词添加至文件片段中,然后将该文件片段存入搜索引擎中,生成索引文件;
步骤4、用户输入检索词,利用分词库确定该检索词中包含的分词,查找存在该分词的索引文件,将该些索引文件作为检索结果。当用户点击索引文件时,从检索库中读取对应该索引文件的源文件。
当用户输入检索词时,根据检索词中所包含的分词在所述文件中出现的频率进行打分,分值权重由系统设定,分值越高,相似度越高,在展示检索结果时,根据分值从高到低排列各索引文件。例如,如果该分词位于文件的标题位置,其权重值越大,分值就越高。
在本实施例中,将文件进行分段截取,方便存储和定位文件,且能够定位检索词在文件及文件内容中的位置,实现快速定位的同时确保检索的正确性和全面性。
所述word、text类型的文件通过换行标志进行分段截取;所述ppt类型的文件按页分段截取;所述excel类型的文件以行为标志进行分段,每行截取为一个分段文件;所述音频文件将其语音文本(例如歌曲,存在对应的歌词)根据换行标志进行分段截取,由于每一段语音都对应存在时间戳,定位到语音文中的某一段,即可根据其时间戳找到对应的语音位置;所述视频文件将其字幕,根据换行标志进行分段截取,由于每一段字幕都对应存在时间戳,定位到字幕中的某一段,即可根据其时间戳找到对应的视频位置。通过上述分段截取方式,即可完成几乎所有文件的文件模块化处理。
请参阅图2,用户输入检索词“小微企业”搜索文档,在分词库中,存在“小”“微”“企业”这几个分词,因此在检索结果中,存在该些分词的索引文件就出现在检索结果中。请参阅图3,用户输入检索词“小微企业”搜索视频,系统不仅可以根据字幕中是否存在该分词进行检索,还可以根据视频对应的文件属性(文件属性中包含标题信息)生成的文件片段中是否包含该分词进行检索,当视频文件不存在对应字幕时,就可以检索由视频的文件属性生成的索引文件是否包含该分词进行检索。
本发明基于搜索引擎的快速准确定位文件的方法,利用文件内容或者创建人,时间等多个纬度一键检索,将文件分段截取,实现文件模块化,从而精、快、准的定位到用户想要找的目标文件。
实施例二
请参阅图1,基于搜索引擎的快速准确定位文件的设备,包括处理器和存储有运行指令的存储器,所述处理器运行所述指令,执行如下步骤:
步骤1、读取本地源文件并载入检索库,其中文件类型包括word、text、ppt、excel、视频和音频;在读取本地源文件的过程中,采用批处理程序进行读取。批处理主要是解决了单线程处理文件速度比较慢,设置了多线程模式可以快速加载文件到内存中,供程序转换使用;
步骤2、对各所述文件进行分段截取,每段生成一文件片段,包括段内容、段行号以及该段所属的文件;本发明还可以将文件属性所包含的内容单独生成一文件片段,所述文件属性包括文件标题、创建人、创建时间、修改时间和所属文件。在生成文件片段时,原文件保持不变,仅是将分段截取后每段内容重新生成一个文件片段;
步骤3、将所述文件片段与分词库中的分词进行匹配,将匹配成功的分词添加至文件片段中,然后将该文件片段存入搜索引擎中,生成索引文件;
步骤4、用户输入检索词,利用分词库确定该检索词中包含的分词,查找存在该分词的索引文件,将该些索引文件作为检索结果。
当用户输入检索词时,根据检索词中所包含的分词在所述文件中出现的频率进行打分,分值权重由系统设定,分值越高,相似度越高,在展示检索结果时,根据分值从高到低排列各索引文件。
所述word、text类型的文件通过换行标志进行分段截取;所述ppt类型的文件按页分段截取;所述excel类型的文件以行为标志进行分段,每行截取为一个分段文件;所述音频文件将其语音文本(例如歌曲,存在对应的歌词)根据换行标志进行分段截取,由于每一段语音都对应存在时间戳,定位到语音文中的某一段,即可根据其时间戳找到对应的语音位置;所述视频文件将其字幕,根据换行标志进行分段截取,由于每一段字幕都对应存在时间戳,定位到字幕中的某一段,即可根据其时间戳找到对应的视频位置。通过上述分段截取方式,即可完成几乎所有文件的文件模块化处理。
本发明基于搜索引擎的快速准确定位文件的方法,利用文件内容或者创建人,时间等多个纬度一键检索,将文件分段截取,实现文件模块化,从而精、快、准的定位到用户想要找的目标文件。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.基于搜索引擎的快速准确定位文件的方法,其特征在于:包括如下步骤:步骤1、读取本地源文件并载入检索库,其中文件类型包括word、text、ppt、excel、视频和音频;
步骤2、对各所述文件进行分段截取,每段生成一文件片段,包括段内容、段行号以及该段所属的文件;
步骤3、将所述文件片段与分词库中的分词进行匹配,将匹配成功的分词添加至文件片段中,然后将该文件片段存入搜索引擎中,生成索引文件;
步骤4、用户输入检索词,利用分词库确定该检索词中包含的分词,查找存在该分词的索引文件,将该些索引文件作为检索结果。
2.根据权利要求1所述的基于搜索引擎的快速准确定位文件的方法,其特征在于:所述步骤2还包括将文件属性所包含的内容单独生成一文件片段,所述文件属性包括文件标题、创建人、创建时间、修改时间和所属文件。
3.根据权利要求1所述的基于搜索引擎的快速准确定位文件的方法,其特征在于:所述步骤4中,当用户输入检索词时,根据检索词中所包含的分词在所述文件中出现的频率进行打分,分值权重由系统设定,分值越高,相似度越高,在展示检索结果时,根据分值从高到低排列各索引文件。
4.根据权利要求1所述的基于搜索引擎的快速准确定位文件的方法,其特征在于:所述word、text类型的文件通过换行标志进行分段截取;所述ppt类型的文件按页分段截取;所述excel类型的文件以行为标志进行分段,每行截取为一个分段文件;所述音频文件将其语音文本根据换行标志进行分段截取;所述视频文件将其字幕根据换行标志进行分段截取。
5.根据权利要求1所述的基于搜索引擎的快速准确定位文件的方法,其特征在于:在读取本地源文件的过程中,采用批处理程序进行读取。
6.基于搜索引擎的快速准确定位文件的设备,其特征在于:包括处理器和存储有运行指令的存储器,所述处理器运行所述指令,执行如下步骤:
步骤1、读取本地源文件并载入检索库,其中文件类型包括word、text、ppt、excel、视频和音频;
步骤2、对各所述文件进行分段截取,每段生成一文件片段,包括段内容、段行号以及该段所属的文件;
步骤3、将所述文件片段与分词库中的分词进行匹配,将匹配成功的分词添加至文件片段中,然后将该文件片段存入搜索引擎中,生成索引文件;
步骤4、用户输入检索词,利用分词库确定该检索词中包含的分词,查找存在该分词的索引文件,将该些索引文件作为检索结果。
7.根据权利要求6所述的基于搜索引擎的快速准确定位文件的设备,其特征在于:所述步骤2还包括将文件属性所包含的内容单独生成一文件片段,所述文件属性包括文件标题、创建人、创建时间、修改时间和所属文件。
8.根据权利要求6所述的基于搜索引擎的快速准确定位文件的设备,其特征在于:所述步骤4中,当用户输入检索词时,根据检索词中所包含的分词在所述文件中出现的频率进行打分,分值权重由系统设定,分值越高,相似度越高,在展示检索结果时,根据分值从高到低排列各索引文件。
9.根据权利要求6所述的基于搜索引擎的快速准确定位文件的设备,其特征在于:所述word、text类型的文件通过换行标志进行分段截取;所述ppt类型的文件按页分段截取;所述excel类型的文件以行为标志进行分段,每行截取为一个分段文件;所述音频文件将其语音文本根据换行标志进行分段截取;所述视频文件将其字幕根据换行标志进行分段截取。
10.根据权利要求6所述的基于搜索引擎的快速准确定位文件的设备,其特征在于:在读取本地源文件的过程中,采用批处理程序进行读取。
CN201811564827.XA 2018-12-20 2018-12-20 基于搜索引擎的快速准确定位文件的方法和设备 Withdrawn CN109710844A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811564827.XA CN109710844A (zh) 2018-12-20 2018-12-20 基于搜索引擎的快速准确定位文件的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811564827.XA CN109710844A (zh) 2018-12-20 2018-12-20 基于搜索引擎的快速准确定位文件的方法和设备

Publications (1)

Publication Number Publication Date
CN109710844A true CN109710844A (zh) 2019-05-03

Family

ID=66256889

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811564827.XA Withdrawn CN109710844A (zh) 2018-12-20 2018-12-20 基于搜索引擎的快速准确定位文件的方法和设备

Country Status (1)

Country Link
CN (1) CN109710844A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051227A (zh) * 2021-04-20 2021-06-29 中国工商银行股份有限公司 文件查找方法及装置
CN114564628A (zh) * 2022-03-09 2022-05-31 云学堂信息科技(江苏)有限公司 基于企业培训的高效型知识库深度检索方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030004947A1 (en) * 2001-06-28 2003-01-02 Sun Microsystems, Inc. Method, system, and program for managing files in a file system
CN101021855A (zh) * 2006-10-11 2007-08-22 鲍东山 基于内容的视频检索系统
CN102867042A (zh) * 2012-09-03 2013-01-09 北京奇虎科技有限公司 多媒体文件搜索方法及装置
CN103440253A (zh) * 2013-07-25 2013-12-11 清华大学 语音检索方法及系统
CN107027060A (zh) * 2017-04-18 2017-08-08 腾讯科技(深圳)有限公司 视频片段的确定方法和装置
CN108363682A (zh) * 2018-02-11 2018-08-03 广州数知科技有限公司 一种目标文本显示方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030004947A1 (en) * 2001-06-28 2003-01-02 Sun Microsystems, Inc. Method, system, and program for managing files in a file system
CN101021855A (zh) * 2006-10-11 2007-08-22 鲍东山 基于内容的视频检索系统
CN102867042A (zh) * 2012-09-03 2013-01-09 北京奇虎科技有限公司 多媒体文件搜索方法及装置
CN103440253A (zh) * 2013-07-25 2013-12-11 清华大学 语音检索方法及系统
CN107027060A (zh) * 2017-04-18 2017-08-08 腾讯科技(深圳)有限公司 视频片段的确定方法和装置
CN108363682A (zh) * 2018-02-11 2018-08-03 广州数知科技有限公司 一种目标文本显示方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051227A (zh) * 2021-04-20 2021-06-29 中国工商银行股份有限公司 文件查找方法及装置
CN114564628A (zh) * 2022-03-09 2022-05-31 云学堂信息科技(江苏)有限公司 基于企业培训的高效型知识库深度检索方法

Similar Documents

Publication Publication Date Title
US10169337B2 (en) Converting data into natural language form
US8335787B2 (en) Topic word generation method and system
US8126897B2 (en) Unified inverted index for video passage retrieval
US11222053B2 (en) Searching multilingual documents based on document structure extraction
US8731930B2 (en) Contextual voice query dilation to improve spoken web searching
CN108932218B (zh) 一种实例扩展方法、装置、设备和介质
US20160188569A1 (en) Generating a Table of Contents for Unformatted Text
US20140181099A1 (en) User management of electronic documents
CN107943919B (zh) 一种面向会话式实体搜索的查询扩展方法
US11532333B1 (en) Smart summarization, indexing, and post-processing for recorded document presentation
US20120179709A1 (en) Apparatus, method and program product for searching document
US8862556B2 (en) Difference analysis in file sub-regions
CN117035078A (zh) 一种多模态知识图谱统一表示学习框架
CN109710844A (zh) 基于搜索引擎的快速准确定位文件的方法和设备
CN116521626A (zh) 一种基于内容检索的个人知识管理方法及系统
JP2960936B2 (ja) 係り受け解析装置
CN105426490A (zh) 一种基于树形结构的索引方法
CN114676155A (zh) 代码提示信息的确定方法、数据集的确定方法及电子设备
JP2009282903A (ja) 知識抽出・検索装置およびその方法
CN108932326B (zh) 一种实例扩展方法、装置、设备和介质
CN116304156A (zh) 图片检索方法、装置、电子设备和存储介质
JP2005234688A (ja) 重要言語識別方法、重要言語識別プログラム、重要言語識別装置、文書検索装置およびキーワード抽出装置
JP2004206608A (ja) 文書検索方法及び装置並びにプログラム
CN116975202A (zh) 文档检索方法、装置、设备及存储介质
CN118093809A (zh) 文档搜索方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20190503

WW01 Invention patent application withdrawn after publication