CN112597106A - 一种文档页面跳转方法及系统 - Google Patents
一种文档页面跳转方法及系统 Download PDFInfo
- Publication number
- CN112597106A CN112597106A CN202011592494.9A CN202011592494A CN112597106A CN 112597106 A CN112597106 A CN 112597106A CN 202011592494 A CN202011592494 A CN 202011592494A CN 112597106 A CN112597106 A CN 112597106A
- Authority
- CN
- China
- Prior art keywords
- document
- page
- target
- index
- pages
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000001914 filtration Methods 0.000 claims abstract description 18
- 230000009191 jumping Effects 0.000 claims description 14
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
- G06F16/148—File search processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
- G06F16/156—Query results presentation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供的一种文档页面跳转方法及系统,文档页面跳转方法包括:索引创建步骤,基于搜索服务器对原始文档创建全文索引和页面索引;文档检索步骤,根据目标关键词和所述全文索引,获取目标文档集;页面检索步骤,基于所述目标文档集,获取目标文档,根据预设过滤条件和所述页面索引,获取所述目标文档的全部页面;页面跳转步骤,根据所述目标关键词、所述页面检索步骤中获取的全部页面及其内容,获取按照相关度排列的目标页面集及与各个目标页面相对应的页面记录,基于所述页面记录,跳转至相对应的所述目标页面。该方法基于搜索服务器建立全文索引和页面索引,可以对文档页面按与关键词相关度从高到低排序。
Description
技术领域
本发明涉及文档检索技术领域,特别涉及一种文档页面跳转方法及系统。
背景技术
根据用户提供的关键词,检索关键词,可在海量文档中查找到与关键词相关的文档。
目前,现有技术通过检索关键词获取与关键词相关的文档,通常相关度高的文档排序靠前,但跳转至文档详情,一般都是从文档首页开始按原始文档的页码顺序排列文档页面。
但就现有技术而言,无法判断文档中哪些页面内容与关键词相关度高,然而用户往往更加关注与关键词相关的页面内容,如果文档页数较多,用户难以快速精准定位与关键词相关度高的页面。
发明内容
为解决现有技术中无法快速定位与关键词相关度高的页面的技术问题,本发明提供了一种文档页面跳转方法,基于搜索服务器建立全文索引和页面索引,可以对文档页面按与关键词相关度从高到低排序,有效解决了用户选择命中关键词的文档之后不能快速定位与关键词相关度高的页面的问题,实现了文档页面的快速跳转。
本发明提供了一种文档页面跳转方法,应用于搜索服务器,包括如下步骤:
索引创建步骤,基于所述搜索服务器对原始文档创建全文索引和页面索引;
文档检索步骤,根据目标关键词和所述全文索引,获取目标文档集;
页面检索步骤,基于所述目标文档集,获取目标文档,根据预设过滤条件和所述页面索引,获取所述目标文档的全部页面;
页面跳转步骤,根据所述目标关键词、所述页面检索步骤中获取的全部页面及其内容,获取按照相关度排列的目标页面集及与各个目标页面相对应的页面记录,基于所述页面记录,跳转至相对应的所述目标页面。
上述的文档页面跳转方法,其中,还包括:
文档类型转化步骤,获取所述原始文档及其类型,将所述原始文档类型转化为pdf类型,并将pdf类型所述原始文档存储至存储系统中,且获取pdf类型所述原始文档的id。
上述的文档页面跳转方法,其中,所述页面跳转步骤中的页面记录具体包括:
页面在文档内页码及目标关键词。
上述的文档页面跳转方法,其中,所述页面跳转步骤中跳转至相对应的所述目标页面具体包括:
根据所述目标文档,获取与所述目标文档相对应的pdf类型所述目标文档的id;
基于pdf类型所述目标文档的id和所述存储系统,获取pdf类型所述目标文档;
根据所述目标页面在所述目标文档内页码和pdf类型所述目标文档,跳转至相对应的pdf类型所述目标文档的目标页面。
上述的文档页面跳转方法,其中,所述页面检索步骤中所述预设过滤条件具体包括:
以docid等于所述目标文档id为预设过滤条件。
上述的文档页面跳转方法,其中,所述索引创建步骤中基于搜索服务器对原始文档创建全文索引的方法具体包括:
基于所述搜索服务器,对所述原始文档创建文档document对象;
构建文档域对象并添加到所述文档document对象中;
基于所述文档document对象,创建全文索引。
上述的文档页面跳转方法,其中,所述文档域对象具体包括:
文档id、文档标题、文档全文内容及pdf类型文档的id。
上述的文档页面跳转方法,其中,所述索引创建步骤中基于搜索服务器对原始文档创建页面索引的方法具体包括:
基于所述搜索服务器,对所述原始文档创建页面document对象;
构建页面域对象并添加到所述页面document对象中;
基于所述页面document对象,创建页面索引。
上述的文档页面跳转方法,其中,所述页面域对象具体包括:
页面id、页面内容、页面在文档内页码及文档id。
本发明还提供一种实现如上所述的文档页面跳转方法的系统,应用于搜索服务器,包括:
索引创建单元,用于基于所述搜索服务器对原始文档创建全文索引和页面索引;
文档检索单元,用于根据目标关键词和所述全文索引,获取目标文档集;
页面检索单元,用于基于所述目标文档集,获取目标文档,根据预设过滤条件和所述页面索引,获取所述目标文档的全部页面;
页面跳转单元,用于根据所述目标关键词、所述页面检索单元中获取的全部页面及其内容,获取按照相关度排列的目标页面集及与各个目标页面相对应的页面记录,基于所述页面记录,跳转至相对应的所述目标页面。
本发明的技术效果或优点:
本发明提供的一种文档页面跳转方法,基于搜索服务器对原始文档创建全文索引和页面索引,根据目标关键词和全文索引,获取目标文档集,基于目标文档集,获取目标文档,根据预设过滤条件和页面索引,获取目标文档的全部页面,根据目标关键词、目标文档的全部页面及其内容,获取按相关度排列的目标页面集及与各个目标页面相对应的页面记录,基于页面记录,跳转至相对应的目标页面。通过上述方式,该方法基于搜索服务器建立全文索引和页面索引,可以对文档页面按与关键词相关度从高到低排序,有效解决了用户选择命中关键词的文档之后不能快速定位与关键词相关度高的页面的问题,实现了文档页面的快速跳转。
附图说明
图1为本发明实施例提供的一个文档页面跳转方法的流程图;
图2为本发明实施例提供的一个实现文档页面跳转方法的系统的结构示意图;
图3为本发明实施例提供的一个电子设备的框架图;
以上图中:
10、总线;11、处理器;12、存储器;13、通信接口。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。
本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
为解决现有技术中无法快速定位与关键词相关度高的页面的技术问题,本发明提供了一种文档页面跳转方法,基于搜索服务器建立全文索引和页面索引,可以对文档页面按与关键词相关度从高到低排序,有效解决了用户选择命中关键词的文档之后不能快速定位与关键词相关度高的页面的问题,实现了文档页面的快速跳转。
下面结合具体实施例及说明书附图,对本发明的技术方案作详细说明。
本实施例提供一种文档页面跳转方法,应用于搜索服务器,包括如下步骤:
索引创建步骤,基于所述搜索服务器对原始文档创建全文索引和页面索引;
文档检索步骤,根据目标关键词和所述全文索引,获取目标文档集;
页面检索步骤,基于所述目标文档集,获取目标文档,根据预设过滤条件和所述页面索引,获取所述目标文档的全部页面;
页面跳转步骤,根据所述目标关键词、所述页面检索步骤中获取的全部页面及其内容,获取按照相关度排列的目标页面集及与各个目标页面相对应的页面记录,基于所述页面记录,跳转至相对应的所述目标页面。
本实施例提供的一种文档页面跳转方法,基于搜索服务器建立全文索引和页面索引,可以对文档页面按与关键词相关度从高到低排序,有效解决了用户选择命中关键词的文档之后不能快速定位与关键词相关度高的页面的问题,实现了文档页面的快速跳转。
具体地说,参考图1,图1为本发明实施例提供的一个文档页面跳转方法的流程图。本发明提供了一种文档页面跳转方法,应用于搜索服务器,包括如下步骤:
索引创建步骤S1,基于所述搜索服务器对原始文档创建全文索引和页面索引。
在本实施例中,索引创建步骤S1中基于搜索服务器对原始文档创建全文索引的方法具体包括:
基于所述搜索服务器,对所述原始文档创建文档document对象;
构建文档域对象并添加到所述文档document对象中;
基于所述文档document对象,创建全文索引。
其中,文档域对象具体包括:
文档id、文档标题、文档全文内容及pdf类型文档的id。
文档域对象具体包括:
文档id、文档标题、文档全文内容及pdf类型文档的id。
所述索引创建步骤S1中基于搜索服务器对原始文档创建页面索引的方法具体包括:
基于所述搜索服务器,对所述原始文档创建页面document对象;
构建页面域对象并添加到所述页面document对象中;
基于所述页面document对象,创建页面索引。
其中,所述页面域对象具体包括:
页面id、页面内容、页面在文档内页码及文档id。
在具体应用中,搜索服务器采用elasticsearch搜索服务器,其中elasticsearch搜索服务器是一款基于Lucene的搜索服务器。其中,全文索引按照表1全文索引结构进行存储,页面索引按照表2页面索引结构进行存储。
表1全文索引结构
表2页面索引结构
字段名称 | 字段类型 | 描述 |
id | 文档页id | |
content | text | 文档一页内容,参与单文档内的检索 |
pageNo | int | 页面在文档内页码 |
docId | keyword | 文档id,来源于全文索引的id,用于关联全文索引 |
文档类型转化步骤S2,获取所述原始文档及其类型,将所述原始文档类型转化为pdf类型,并将pdf类型所述原始文档存储至存储系统中,且获取pdf类型所述原始文档的id。
在本实施例中原始文档类型包括但不限于ppt、pptx、txt、doc、docx、xls、xlsx及pdf。
在具体应用中,将pdf类型原始文档存储至存储系统中,存储系统可为分布式文件系统(HDFS),其中,存储系统可以用文档的绝对路径作为文档id,从而基于存储系统可以获取pdf类型原始文档的id。更具体地说,当给定一批文档时,将文档转换成pdf类型文档,并获取pdf类型文档的id,从文档中抽取全文内容、文档标题写入全文索引,并获取该文档在全文索引的id,按照全文索引结构进行存储,从文档中抽取每页内容,针对文档的每一页,将单页文档内容、页码及所在文档的id写入页面索引,按照页面索引结构进行存储。
文档检索步骤S3,根据目标关键词和所述全文索引,获取目标文档集。
在本实施例中,获取的目标文档集中各个目标文档按照相关度排序,其中,elasticsearch搜索服务器默认按相关度排序。
页面检索步骤S4,基于所述目标文档集,获取目标文档,根据预设过滤条件和所述页面索引,获取所述目标文档的全部页面。
在本实施例中,所述页面检索步骤S4中所述预设过滤条件具体包括:
以docid等于所述目标文档id为预设过滤条件。
在具体应用中,根据目标文档集,用户选择一个需要查看详情的目标文档,根据预设过滤条件,可过滤出页面索引中目标文档的全部页面。
页面跳转步骤S5,根据所述目标关键词、所述页面检索步骤中获取的全部页面及其内容,获取按照相关度排列的目标页面集及与各个目标页面相对应的页面记录,基于所述页面记录,跳转至相对应的所述目标页面。
在本实施例中,所述页面跳转步骤S5中的页面记录具体包括:
页面在文档内页码及目标关键词。其中,页面在文档内页码及目标关键词为缩略信息。
在本实施例中,所述页面跳转步骤S5中跳转至相对应的所述目标页面具体包括:
根据所述目标文档,获取与所述目标文档相对应的pdf类型所述目标文档的id;
基于pdf类型所述目标文档的id和所述存储系统,获取pdf类型所述目标文档;
根据所述目标页面在所述目标文档内页码和pdf类型所述目标文档,跳转至相对应的pdf类型所述目标文档的目标页面。
在具体应用中,页面记录中的目标关键词为高亮目标关键词。
本实施例提供的一种文档页面跳转方法,基于搜索服务器建立全文索引和页面索引,可以对文档页面按与关键词相关度从高到低排序,有效解决了用户选择命中关键词的文档之后不能快速定位与关键词相关度高的页面的问题,实现了文档页面的快速跳转。
作为一个示例,下面具体介绍一下文档页面跳转方法,具体如下:
根据elasticsearch搜索服务器按照表1和表2的索引结构对原始文档创建全文索引和页面索引,给定一批文档,针对每个文档转化成相应的pdf类型文档,将pdf类型文档存储至存储系统中,并获取pdf类型原始文档的id,从文档中抽取每页内容、文档标题写入全文索引,并获取该文档在全文索引中的id,从文档中抽取每页内容,针对文档的每一页,将单页文档内容、页面在文档内页码及所属文档id写入页面索引,用户根据目标关键词检索全文索引,获取按照相关度排列的与目标关键词相关的目标文档,选择一个需要查看详情的目标文档,以docid等于所述目标文档id为预设过滤条件,过滤出页面索引中目标文档的全部页面,基于目标关键词、目标文档的全部页面及其内容,获取按照相关度排列的目标页面集及与各个目标页面相对应的目标页面在目标文档内页码和目标关键词,用户选择页码,通过pdf类型文档的id从存储系统中取出pdf类型文档,根据页码及pdf类型文档的目标页面,实现快速跳转。
本发明实施例还提供一种实现如上所述的文档页面跳转方法的系统,应用于搜索服务器,参考图2,包括:
索引创建单元,用于基于所述搜索服务器对原始文档创建全文索引和页面索引;
文档检索单元,用于根据目标关键词和所述全文索引,获取目标文档集;
页面检索单元,用于基于所述目标文档集,获取目标文档,根据预设过滤条件和所述页面索引,获取所述目标文档的全部页面;
页面跳转单元,用于根据所述目标关键词、所述页面检索单元中获取的全部页面及其内容,获取按照相关度排列的目标页面集及与各个目标页面相对应的页面记录,基于所述页面记录,跳转至相对应的所述目标页面。
本实施例提供的一种实现如上所述的文档页面跳转方法的系统,基于搜索服务器建立全文索引和页面索引,可以对文档页面按与关键词相关度从高到低排序,有效解决了用户选择命中关键词的文档之后不能快速定位与关键词相关度高的页面的问题,实现了文档页面的快速跳转。
参考图3,本实施例还提供一种计算机设备,包括存储器12、处理器11以及存储在所述存储器12上并可在所述处理器11上运行的计算机程序,所述处理器11执行所述计算机程序时实现如上所述的文档页面跳转方法。
设备可以包括处理器11以及存储有计算机程序指令的存储器12。具体地,上述处理器11可以包括中央处理器(CPU),或者特定集成电路(Application SpecificIntegrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器12可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器12可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器12可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器12可在数据处理装置的内部或外部。在特定实施例中,存储器12是非易失性(Non-Volatile)存储器。在特定实施例中,存储器12包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(RandomAccess Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器12可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器11所执行的可能的计算机程序指令。
处理器11通过读取并执行存储器12中存储的计算机程序指令,以实现上述实施例中的任意一种文档页面跳转方法。
在其中一些实施例中,计算机设备还可包括通信接口13和总线10。其中,参考图3,处理器11、存储器12、通信接口13通过总线10连接并完成相互间的通信。通信接口13用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口13还可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
总线10包括硬件、软件或两者,将电子设备的部件彼此耦接在一起。总线10包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(ControlBus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线10可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(FrontSide Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构(Industry Standard Architecture,简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture,简称为MCA)总线、外围组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线10可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种文档页面跳转方法,其特征在于,应用于搜索服务器,包括如下步骤:
索引创建步骤,基于所述搜索服务器对原始文档创建全文索引和页面索引;
文档检索步骤,根据目标关键词和所述全文索引,获取目标文档集;
页面检索步骤,基于所述目标文档集,获取目标文档,根据预设过滤条件和所述页面索引,获取所述目标文档的全部页面;
页面跳转步骤,根据所述目标关键词、所述页面检索步骤中获取的全部页面及其内容,获取按照相关度排列的目标页面集及与各个目标页面相对应的页面记录,基于所述页面记录,跳转至相对应的所述目标页面。
2.根据权利要求1所述的文档页面跳转方法,其特征在于,还包括:
文档类型转化步骤,获取所述原始文档及其类型,将所述原始文档类型转化为pdf类型,并将pdf类型所述原始文档存储至存储系统中,且获取pdf类型所述原始文档的id。
3.根据权利要求2所述的文档页面跳转方法,其特征在于,所述页面跳转步骤中的页面记录具体包括:
页面在文档内页码及目标关键词。
4.根据权利要求3所述的文档页面跳转方法,其特征在于,所述页面跳转步骤中跳转至相对应的所述目标页面具体包括:
根据所述目标文档,获取与所述目标文档相对应的pdf类型所述目标文档的id;
基于pdf类型所述目标文档的id和所述存储系统,获取pdf类型所述目标文档;
根据所述目标页面在所述目标文档内页码和pdf类型所述目标文档,跳转至相对应的pdf类型所述目标文档的目标页面。
5.根据权利要求1所述文档页面跳转方法,其特征在于,所述页面检索步骤中所述预设过滤条件具体包括:
以docid等于所述目标文档id为预设过滤条件。
6.根据权利要求1所述的文档页面跳转方法,其特征在于,所述索引创建步骤中基于搜索服务器对原始文档创建全文索引的方法具体包括:
基于所述搜索服务器,对所述原始文档创建文档document对象;
构建文档域对象并添加到所述文档document对象中;
基于所述文档document对象,创建全文索引。
7.根据权利要求6所述的文档页面跳转方法,其特征在于,所述文档域对象具体包括:
文档id、文档标题、文档全文内容及pdf类型文档的id。
8.根据权利要求1所述的文档页面跳转方法,其特征在于,所述索引创建步骤中基于搜索服务器对原始文档创建页面索引的方法具体包括:
基于所述搜索服务器,对所述原始文档创建页面document对象;
构建页面域对象并添加到所述页面document对象中;
基于所述页面document对象,创建页面索引。
9.根据权利要求8所述的文档页面跳转方法,其特征在于,所述页面域对象具体包括:
页面id、页面内容、页面在文档内页码及文档id。
10.一种实现如权利要求1至9中任一项所述的文档页面跳转方法的系统,其特征在于,应用于搜索服务器,包括:
索引创建单元,用于基于所述搜索服务器对原始文档创建全文索引和页面索引;
文档检索单元,用于根据目标关键词和所述全文索引,获取目标文档集;
页面检索单元,用于基于所述目标文档集,获取目标文档,根据预设过滤条件和所述页面索引,获取所述目标文档的全部页面;
页面跳转单元,用于根据所述目标关键词、所述页面检索单元中获取的全部页面及其内容,获取按照相关度排列的目标页面集及与各个目标页面相对应的页面记录,基于所述页面记录,跳转至相对应的所述目标页面。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011592494.9A CN112597106A (zh) | 2020-12-29 | 2020-12-29 | 一种文档页面跳转方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011592494.9A CN112597106A (zh) | 2020-12-29 | 2020-12-29 | 一种文档页面跳转方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112597106A true CN112597106A (zh) | 2021-04-02 |
Family
ID=75204008
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011592494.9A Pending CN112597106A (zh) | 2020-12-29 | 2020-12-29 | 一种文档页面跳转方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112597106A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113448984A (zh) * | 2021-07-15 | 2021-09-28 | 中国银行股份有限公司 | 文档定位展示方法、装置、服务器及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105930536A (zh) * | 2016-06-21 | 2016-09-07 | 北京小米移动软件有限公司 | 索引建立方法、页面跳转方法及装置 |
US20170060983A1 (en) * | 2015-08-31 | 2017-03-02 | International Business Machines Corporation | Determination of expertness level for a target keyword |
CN108427739A (zh) * | 2018-03-01 | 2018-08-21 | 上海哔哩哔哩科技有限公司 | 页面跳转方法、服务器及页面跳转系统 |
CN108595642A (zh) * | 2018-04-26 | 2018-09-28 | 上海掌门科技有限公司 | 一种搜索应用程序内信息的方法及设备 |
CN111026833A (zh) * | 2019-11-27 | 2020-04-17 | 广州润普网络科技有限公司 | 一种文档的在线浏览方法及装置 |
-
2020
- 2020-12-29 CN CN202011592494.9A patent/CN112597106A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170060983A1 (en) * | 2015-08-31 | 2017-03-02 | International Business Machines Corporation | Determination of expertness level for a target keyword |
CN105930536A (zh) * | 2016-06-21 | 2016-09-07 | 北京小米移动软件有限公司 | 索引建立方法、页面跳转方法及装置 |
CN108427739A (zh) * | 2018-03-01 | 2018-08-21 | 上海哔哩哔哩科技有限公司 | 页面跳转方法、服务器及页面跳转系统 |
CN108595642A (zh) * | 2018-04-26 | 2018-09-28 | 上海掌门科技有限公司 | 一种搜索应用程序内信息的方法及设备 |
CN111026833A (zh) * | 2019-11-27 | 2020-04-17 | 广州润普网络科技有限公司 | 一种文档的在线浏览方法及装置 |
Non-Patent Citations (1)
Title |
---|
HENG_BLOG: ""使用Elasticsearch 7.9.1实现对word,pdf,txt文件的全文内容检索"", pages 1 - 7, Retrieved from the Internet <URL:https://www.cnblogs.com/strongchenyu/p/13777596.html> * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113448984A (zh) * | 2021-07-15 | 2021-09-28 | 中国银行股份有限公司 | 文档定位展示方法、装置、服务器及电子设备 |
CN113448984B (zh) * | 2021-07-15 | 2024-03-26 | 中国银行股份有限公司 | 文档定位展示方法、装置、服务器及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10452691B2 (en) | Method and apparatus for generating search results using inverted index | |
US11176124B2 (en) | Managing a search | |
US8200642B2 (en) | System and method for managing electronic documents in a litigation context | |
CN106372226B (zh) | 信息检索装置及方法 | |
US9946753B2 (en) | Method and system for document indexing and data querying | |
US20090112830A1 (en) | System and methods for searching images in presentations | |
US8775435B2 (en) | Ordered index | |
CN107844493B (zh) | 一种文件关联方法及系统 | |
US20180260475A1 (en) | Systems and methods for verbatim-text mining | |
EP2631815A1 (en) | Method and device for ordering search results, method and device for providing information | |
CN110968789B (zh) | 电子书推送方法、电子设备及计算机存储介质 | |
CN106021390A (zh) | 一种文件的管理方法和装置 | |
US20140289260A1 (en) | Keyword Determination | |
RU2568276C2 (ru) | Способ извлечения полезного контента из установочных файлов мобильных приложений для дальнейшей машинной обработки данных, в частности поиска | |
CN112487766A (zh) | 一种文档标注方法、系统及计算机设备 | |
JP2019204246A (ja) | 学習データ作成方法及び学習データ作成装置 | |
CN112597106A (zh) | 一种文档页面跳转方法及系统 | |
Oliveira et al. | Automatic tag suggestion based on resource contents | |
CN112015853B (zh) | 图书搜索方法、图书搜索系统、电子装置及介质 | |
EP3273365B1 (en) | Method for generating search index and server utilizing the same | |
CN114996441B (zh) | 文档处理方法、装置、电子设备和存储介质 | |
CN116431939A (zh) | 一种url入库方法、装置、设备和介质 | |
Inoue et al. | Effects of Visual Concept-based Post-retrieval Clustering in ImageCLEFphoto 2008. | |
Rygał et al. | Properties and structure of fast text search engine in context of semantic image analysis | |
TW201502814A (zh) | 資訊檢索系統及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |