CN115687566A - 一种全文检索及显示检索结果的方法及装置 - Google Patents

一种全文检索及显示检索结果的方法及装置 Download PDF

Info

Publication number
CN115687566A
CN115687566A CN202211209222.5A CN202211209222A CN115687566A CN 115687566 A CN115687566 A CN 115687566A CN 202211209222 A CN202211209222 A CN 202211209222A CN 115687566 A CN115687566 A CN 115687566A
Authority
CN
China
Prior art keywords
text
node
retrieved
full
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211209222.5A
Other languages
English (en)
Inventor
黄文广
姚嘉陵
温珂
刘晓晨
朱俊娜
陈路明
苏国伟
任利兵
刘雨林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pla 93114
Original Assignee
Pla 93114
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pla 93114 filed Critical Pla 93114
Priority to CN202211209222.5A priority Critical patent/CN115687566A/zh
Publication of CN115687566A publication Critical patent/CN115687566A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种全文检索及显示检索结果的方法及装置,所述方法包括:提取待检索的文本的目录结构,将所述目录结构以多叉树的形式存储;树中的每个节点对应于所述目录结构的一个条目;以广度遍历的方式遍历所述多叉树,获取各相邻节点间的文本内容;基于各相邻节点间的文本内容,建立所述待检索文本对应的全文索引;将所述待检索的文本栅格化,在每个图像上添加显性数字水印;获取检索关键词,基于所述全文索引对所述待检索文本进行全文检索,输出与检索结果对应的图像。本发明的方法,将检索的结果所在的部分按结构化信息展示,对检索的结果栅格化并添加水印。

Description

一种全文检索及显示检索结果的方法及装置
技术领域
本发明涉及检索领域,具体涉及一种全文检索及显示检索结果的方法及装置。
背景技术
全文检索是20世纪末产生的一种新的信息检索技术。经过几十年的发展,特别是以计算机技术为代表的新一代信息技术应用的发展,全文检索从最初的字符串匹配和简单的布尔逻辑检索技术,演进成一种能对超大文本、语音、图像、活动影像等非结构化数据进行综合管理的复合技术。由于内涵和外延的深刻变化,全文检索系统已成为新一代管理系统的代名词,衡量全文检索系统的基本指标和全文检索的内涵也发生巨大变化。
业内主要的文档管理和全文检索系统有:
百度文库全文检索,它是通过输入关键字进行检索,结果显示所有的内容,文字内容可以拷贝,但是没有提取文档结构,检索结果页面,对文档内容也没有添加水印信息。
豆丁文库全文检索,它是通过输入关键字进行检索,结果显示为图片,并且可以添加水印,但是检索出的文档结果,没有做结构化显示。
360文库全文检索,它是通过输入关键字进行检索,结果显示为图片,但是但是检索出的文档结果,没有做结构化显示,也没有添加水印。
比较来看,业内的全文检索系统,都只是对文档进行全文检索和显示,在文档结构化、加密显示等方面,有所欠缺。例如,文档在全文检索检索和内容浏览过程中,不能把文件进行结构化分解,也不能进行分段浏览及精确地定位到文件的章节内容,更不能使用文字对比功能,不能解决在文档多版本对比和精确定位的要求,同时,无法快捷原样定位到指定的章节目录。显然是无法满足特定场景下文件全文检索、关键字高亮、文档结构组织和栅格化保密显示、文档不同版本对比、数据安全等方面的要求。
发明内容
有鉴于此,本发明提供了一种全文检索及显示检索结果的方法及装置,能够解决现有的全文检索后,对检索结果的文档结构、加密显示存在不足的技术问题。
为了解决上述技术问题,本发明是这样实现的。
一种全文检索及显示检索结果的方法,包括:
步骤S1:提取待检索的文本的目录结构,将所述目录结构以多叉树的形式存储;树中的每个节点对应于所述目录结构的一个条目,所述节点还存储节点标志以及所述节点对应的目录条目对应的章节的内容的语义信息;所述节点标志用于标识节点、以及所述节点对应的内容的所属类别;
步骤S2:以广度遍历的方式遍历所述多叉树,获取各相邻节点间的文本内容;
步骤S3:基于各相邻节点间的文本内容,建立所述待检索文本对应的全文索引;
步骤S4:基于所述待检索的文本的目录结构、多叉树中各节点的节点标志以及节点对应的所述语义信息,将所述待检索的文本栅格化,即将所述待检索的文本划分为多个长度不同的文本块,每个文本块对应一个图像;在每个图像上添加显性数字水印;
步骤S5:获取检索关键词,基于所述全文索引对所述待检索文本进行全文检索,输出与检索结果对应的图像。
优选地,所述提取待检索的文本的目录结构,将所述目录结构以多叉树的形式存储,包括:
步骤S11:读取所述待检索的文本的目录结构,以递归的方式读取当前目录所包括的各个深度的子目录;读取所述当前目录,为各个子目录及所述当前目录建立对应的多叉树中的节点;
步骤S12:若所述待检索的文本的全部目录均处理完毕,方法结束;否则,将所述当前目录的下一个目录作为当前目录,返回步骤S11。
优选地,所述步骤S2:以广度遍历的方式遍历所述多叉树,获取各相邻节点间的文本内容,包括:
步骤S21:以广度遍历的方式遍历所述多叉树,获取各个相邻节点对,每个相邻节点对包括相邻的两个节点;
步骤S22:对全部相邻节点对中的每个相邻节点对,均执行以下操作:获取两个节点对应的节点标志,从所述待检索的文本中提取这两个节点标志之间所有的文字。
优选地,所述步骤S3:基于各相邻节点间的文本内容,建立所述待检索文本对应的全文索引,包括:
基于各相邻节点间的文本内容,将提取的所述文本内容提交到全文检索ES数据库中,构建全文索引。
本发明所提供的一种全文检索及显示检索结果的装置,所述装置包括:
多叉树模块:配置为提取待检索的文本的目录结构,将所述目录结构以多叉树的形式存储;树中的每个节点对应于所述目录结构的一个条目,所述节点还存储节点标志以及所述节点对应的目录条目对应的章节的内容的语义信息;所述节点标志用于标识节点、以及所述节点对应的内容的所属类别;
遍历模块:配置为以广度遍历的方式遍历所述多叉树,获取各相邻节点间的文本内容;
索引模块:配置为基于各相邻节点间的文本内容,建立所述待检索文本对应的全文索引;
栅格化模块:配置为基于所述待检索的文本的目录结构、多叉树中各节点的节点标志以及节点对应的所述语义信息,将所述待检索的文本栅格化,即将所述待检索的文本划分为多个长度不同的文本块,每个文本块对应一个图像;在每个图像上添加显性数字水印;
检索模块:配置为获取检索关键词,基于所述全文索引对所述待检索文本进行全文检索,输出与检索结果对应的图像。
本发明所提供的一种计算机可读存储介质,所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行如前所述方法。
本发明所提供的一种电子设备,其特征在于,所述电子设备,包括:
处理器,用于执行多条指令;
存储器,用于存储多条指令;
其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行如前所述方法。
有益效果:
本发明提出了一种对文档全文检索的结构化提取方法,以及一种结构化文档的全功能显示方法,能够对数据显示文档栅格化、添加水印显示、多文档对比等,能够满足特定场景下对文件全文检索、关键字高亮、文档结构组织和栅格化保密显示、文档不同版本对比、数据安全等方面的要求。
具有以下技术效果:
(1)本发明能够使用户快速定位到检索内容对应的部分所属的文件,所属的章节。并在同一文件的不同版本之间,能够进行快速同屏对比,满足用户一方面能够进行文字全文检索的基本要求,又能够满足用户通过结构化方式定位文件内容,快速比较文件版本差异或者不同部门下发相似文件的内容对比。
(2)本发明提出了一种对文档全文检索的结构化提取方法,本发明对文档进行结构化分解,提取结构化内容,然后进行全文检索,将检索的结果所在的部分按结构化信息展示,对检索的结果栅格化并添加水印。
(3)本发明能够提供数据显示文档栅格化、添加水印显示、多文档对比等功能。
(4)本发明能够对文本结构及内容进行提取,解决大文档浏览的互操作问题;本发明能够对文本栅格化处理,以及加水印。以图片和水印的方式显示检索结果,满足数据严格保密的要求,提高文本的保密性和可追踪性。
附图说明
图1为本发明提供的全文检索及显示检索结果的方法流程示意图;
图2为本发明提供的确定文件结构的方法流程示意图;
图3为本发明提供的读取节点内容的方法流程示意图;
图4为本发明提供的全文检索及显示检索结果的装置结构示意图。
具体实施方式
下面结合附图和实施例,对本发明进行详细描述。
如图1-图3所示,本发明提出了一种全文检索及显示检索结果的方法,包括如下步骤:
步骤S1:提取待检索的文本的目录结构,将所述目录结构以多叉树的形式存储;树中的每个节点对应于所述目录结构的一个条目,所述节点还存储节点标志以及所述节点对应的目录条目对应的章节的内容的语义信息;所述节点标志用于标识节点、以及所述节点对应的内容的所属类别;
步骤S2:以广度遍历的方式遍历所述多叉树,获取各相邻节点间的文本内容;
步骤S3:基于各相邻节点间的文本内容,建立所述待检索文本对应的全文索引;
步骤S4:基于所述待检索的文本的目录结构、多叉树中各节点的节点标志以及节点对应的所述语义信息,将所述待检索的文本栅格化,即将所述待检索的文本划分为多个长度不同的文本块,每个文本块对应一个图像;在每个图像上添加显性数字水印;
步骤S5:获取检索关键词,基于所述全文索引对所述待检索文本进行全文检索,输出与检索结果对应的图像。
本发明使用JavaEE进行开发,使用国产达梦数据库技术,基于SpringBoot构建整个系统,使用POI,ITEXT,PDFBOX,elasticsearch等技术对文档进行读取目录结构,提取文字内容,文档内容栅格化,添加水印信息和构建全文检索索引,前端使用VUE进行整体内容交互界面的搭建。
本发明中,文档结构化提取,通过读取文档的标题/目录等结构,对整个文档做树状结构的组织;文档内容栅格化方式,通过文档转图片方法,把文件保存为多个图片,生成图片的时候加上显性数字水印用于追踪文件的来源,确保数据使用安全。
所述步骤S1:提取待检索的文本的目录结构,将提取的目录结构以多叉树的形式存储;树中的每个节点均对应于所述目录结构的一个条目,树中的节点还存储所述节点的节点标志以及所述节点对应的所述待检索的文本的相应章节的内容的语义信息,所述节点标志用于标识节点、以及所述节点对应的内容的所属类别,包括:
所述提取待检索的文本的文档结构,是通过读取所述待检索的文本的目录结构,将所述待检索的文本组织成一个树状结构。
所述提取待检索的文本的目录结构,将提取的目录结构以多叉树的形式存储,包括:
步骤S11:读取所述待检索的文本的目录结构,以递归的方式读取当前目录所包括的各个深度的子目录;读取所述当前目录,为各个子目录及所述当前目录建立对应的多叉树中的节点;
步骤S12:若所述待检索的文本的全部目录均处理完毕,方法结束;否则,将所述当前目录的下一个目录作为当前目录,返回步骤S11。
文档内容结构化是本发明的核心,通过读取文档的标题/目录等结构,对整个文档做树状结构的组织。提取文档的结构伪代码如下:
Figure BDA0003873926070000071
所述步骤S2:以广度遍历的方式遍历所述多叉树,获取各相邻节点间的文本内容,包括:
步骤S21:以广度遍历的方式遍历所述多叉树,获取各个相邻节点对,每个相邻节点对包括相邻的两个节点;
步骤S22:对全部相邻节点对中的每个相邻节点对,均执行以下操作:获取两个节点对应的节点标志,从所述待检索的文本中提取这两个节点标志之间所有的文字。
本发明中,循环每个节点,以节点标志包括页码为例,获取当前节点页码和下一个节点的页码,提取这两个页码之间的所有文字,查询节点标志文字定位,检索出两个节点标志之间的位置,然后截取节点标志之间的文字。这样就能获取文档结构之间的文字。为全文检索做准备。
Figure BDA0003873926070000081
所述步骤S3:基于各相邻节点间的文本内容,建立所述待检索文本对应的全文索引,包括:
基于各相邻节点间的文本内容,将提取的所述文本内容提交到全文检索ES数据库中,构建全文检索内容,构建过程使用ES的标准操作进行。
所述步骤S4:基于所述待检索的文本的目录结构、多叉树中各节点的节点标志以及节点对应的所述语义信息,将所述待检索的文本栅格化,即将所述待检索的文本划分为多个长度不同的文本块,每个文本块对应一个图像;在每个图像上添加显性数字水印,其中:
文本内容栅格化,把文件分页保存为图片,在生成的图片上添加显性数字水印用于追踪文件的来源。
本发明通过文档转图片方法,把文件分页保存为图片,生成图片的时候加上显性数字水印用于追踪文件的来源,确保数据使用安全。
PDF、WORD都是特殊的格式,因此有些用户的电脑上是无法查看PDF文件的,可能会将PDF文件转成图片,这样不仅节省了空间,添加表面水印,还可以随时随地的查阅,主要核心代码如下:
Figure BDA0003873926070000091
所述步骤S5:获取检索关键词,基于所述全文索引对所述待检索文本进行全文检索,输出与检索结果对应的图像,其中:
输入检索关键词,例如文件名称、章节、详细内容等,进行全文检索,同时可以设定专业、文件类型、发布时间范围等信息,按照检索出来的结果进行显示。
本发明中,用户能够快速定位到所属的文件,所属的章节。同一文件不同版本之间,能够进行快速同屏对比,满足用户一方面能够进行文字全文检索的基本要求,又能够满足用户通过结构化方式定位文件内容,快速比较文件版本差异或者不同部门下发相似文件的内容对比。
在显示的过程中,以图片和水印的方式进行显示,满足数据严格保密的要求。
针对非结构化文件,进行匹配文件名称,内容全文检索,视频,声音等文件,可以进行在线预览和播放。
本发明还提供了一种全文检索及显示检索结果的装置,如图4所示,该装置包括:
多叉树模块:配置为提取待检索的文本的目录结构,将所述目录结构以多叉树的形式存储;树中的每个节点对应于所述目录结构的一个条目,所述节点还存储节点标志以及所述节点对应的目录条目对应的章节的内容的语义信息;所述节点标志用于标识节点、以及所述节点对应的内容的所属类别;
遍历模块:配置为以广度遍历的方式遍历所述多叉树,获取各相邻节点间的文本内容;
索引模块:配置为基于各相邻节点间的文本内容,建立所述待检索文本对应的全文索引;
栅格化模块:配置为基于所述待检索的文本的目录结构、多叉树中各节点的节点标志以及节点对应的所述语义信息,将所述待检索的文本栅格化,即将所述待检索的文本划分为多个长度不同的文本块,每个文本块对应一个图像;在每个图像上添加显性数字水印;
检索模块:配置为获取检索关键词,基于所述全文索引对所述待检索文本进行全文检索,输出与检索结果对应的图像。
以上的具体实施例仅描述了本发明的设计原理,该描述中的部件形状,名称可以不同,不受限制。所以,本发明领域的技术人员可以对前述实施例记载的技术方案进行修改或等同替换;而这些修改和替换未脱离本发明创造宗旨和技术方案,均应属于本发明的保护范围。

Claims (7)

1.一种全文检索及显示检索结果的方法,其特征在于,包括如下步骤:
步骤S1:提取待检索的文本的目录结构,将所述目录结构以多叉树的形式存储;树中的每个节点对应于所述目录结构的一个条目,所述节点还存储节点标志以及所述节点对应的目录条目对应的章节的内容的语义信息;所述节点标志用于标识节点、以及所述节点对应的内容的所属类别;
步骤S2:以广度遍历的方式遍历所述多叉树,获取各相邻节点间的文本内容;
步骤S3:基于各相邻节点间的文本内容,建立所述待检索文本对应的全文索引;
步骤S4:基于所述待检索的文本的目录结构、多叉树中各节点的节点标志以及节点对应的所述语义信息,将所述待检索的文本栅格化,即将所述待检索的文本划分为多个长度不同的文本块,每个文本块对应一个图像;在每个图像上添加显性数字水印;
步骤S5:获取检索关键词,基于所述全文索引对所述待检索文本进行全文检索,输出与检索结果对应的图像。
2.如权利要求1所述的方法,其特征在于,所述提取待检索的文本的目录结构,将所述目录结构以多叉树的形式存储,包括:
步骤S11:读取所述待检索的文本的目录结构,以递归的方式读取当前目录所包括的各个深度的子目录;读取所述当前目录,为各个子目录及所述当前目录建立对应的多叉树中的节点;
步骤S12:若所述待检索的文本的全部目录均处理完毕,方法结束;否则,将所述当前目录的下一个目录作为当前目录,返回步骤S11。
3.如权利要求1-2中任一所述方法,其特征在于,所述步骤S2:以广度遍历的方式遍历所述多叉树,获取各相邻节点间的文本内容,包括:
步骤S21:以广度遍历的方式遍历所述多叉树,获取各个相邻节点对,每个相邻节点对包括相邻的两个节点;
步骤S22:对全部相邻节点对中的每个相邻节点对,均执行以下操作:获取两个节点对应的节点标志,从所述待检索的文本中提取这两个节点标志之间所有的文字。
4.如权利要求3所述的方法,其特征在于,所述步骤S3:基于各相邻节点间的文本内容,建立所述待检索文本对应的全文索引,包括:
基于各相邻节点间的文本内容,将提取的所述文本内容提交到全文检索ES数据库中,构建全文索引。
5.一种全文检索及显示检索结果的装置,其特征在于,所述装置包括:
多叉树模块:配置为提取待检索的文本的目录结构,将所述目录结构以多叉树的形式存储;树中的每个节点对应于所述目录结构的一个条目,所述节点还存储节点标志以及所述节点对应的目录条目对应的章节的内容的语义信息;所述节点标志用于标识节点、以及所述节点对应的内容的所属类别;
遍历模块:配置为以广度遍历的方式遍历所述多叉树,获取各相邻节点间的文本内容;
索引模块:配置为基于各相邻节点间的文本内容,建立所述待检索文本对应的全文索引;
栅格化模块:配置为基于所述待检索的文本的目录结构、多叉树中各节点的节点标志以及节点对应的所述语义信息,将所述待检索的文本栅格化,即将所述待检索的文本划分为多个长度不同的文本块,每个文本块对应一个图像;在每个图像上添加显性数字水印;
检索模块:配置为获取检索关键词,基于所述全文索引对所述待检索文本进行全文检索,输出与检索结果对应的图像。
6.一种计算机可读存储介质,所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行如权利要求1-4中任一项所述方法。
7.一种电子设备,其特征在于,所述电子设备,包括:
处理器,用于执行多条指令;
存储器,用于存储多条指令;
其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行如权利要求1-4中任一项所述方法。
CN202211209222.5A 2022-09-30 2022-09-30 一种全文检索及显示检索结果的方法及装置 Pending CN115687566A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211209222.5A CN115687566A (zh) 2022-09-30 2022-09-30 一种全文检索及显示检索结果的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211209222.5A CN115687566A (zh) 2022-09-30 2022-09-30 一种全文检索及显示检索结果的方法及装置

Publications (1)

Publication Number Publication Date
CN115687566A true CN115687566A (zh) 2023-02-03

Family

ID=85064322

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211209222.5A Pending CN115687566A (zh) 2022-09-30 2022-09-30 一种全文检索及显示检索结果的方法及装置

Country Status (1)

Country Link
CN (1) CN115687566A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117389954A (zh) * 2023-12-13 2024-01-12 湖南汇智兴创科技有限公司 在线多版本文献内容定位方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117389954A (zh) * 2023-12-13 2024-01-12 湖南汇智兴创科技有限公司 在线多版本文献内容定位方法、装置、设备及介质
CN117389954B (zh) * 2023-12-13 2024-03-29 湖南汇智兴创科技有限公司 在线多版本文献内容定位方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
US20210342404A1 (en) System and method for indexing electronic discovery data
US20190236102A1 (en) System and method for differential document analysis and storage
Neudecker An open corpus for named entity recognition in historic newspapers
US9256798B2 (en) Document alteration based on native text analysis and OCR
KR20130142121A (ko) 검색 질의 입력에 대한 다중 모드 접근 방법
JPH08241332A (ja) 全文登録語検索装置および方法
CN107844493B (zh) 一种文件关联方法及系统
US20080089594A1 (en) Method and system for converting image text documents in bit-mapped formats to searchable text and for searching the searchable text
Senellart et al. Automatic wrapper induction from hidden-web sources with domain knowledge
Tan et al. -Based Extraction of News Contents for Text Mining
CN115687566A (zh) 一种全文检索及显示检索结果的方法及装置
Kanungo et al. TRUEVIZ: a groundtruth/metadata editing and visualizing toolkit for OCR
Sirsat et al. Pattern matching for extraction of core contents from news web pages
Parinov Semantic attributes for citation relationships: creation and visualization
CN108614821B (zh) 地质资料互联互查系统
Burch et al. Lyrics word clouds
KR100659370B1 (ko) 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법
Gruber et al. Linking Roman coins: current work at the American Numismatic Society
Batjargal et al. Metadata-related Challenges for Realizing a Federated Searching System for Japanese Humanities Databases
Hast et al. Making large collections of handwritten material easily accessible and searchable
Adefowoke Ojokoh et al. Automated document metadata extraction
JP2011159100A (ja) 逐次類似文書検索装置、逐次類似文書検索方法およびプログラム
JP6707410B2 (ja) 文献検索装置、文献検索方法およびコンピュータプログラム
Harrington Generating geographic terms for streaming videos using Python: A comparative analysis
Asfoor et al. Unleash the Potential of Upstream Data Using Search, AI and Computer Vision

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination