CN110413570A - 一种文档索引和检索方法及其装置 - Google Patents

一种文档索引和检索方法及其装置 Download PDF

Info

Publication number
CN110413570A
CN110413570A CN201910557297.4A CN201910557297A CN110413570A CN 110413570 A CN110413570 A CN 110413570A CN 201910557297 A CN201910557297 A CN 201910557297A CN 110413570 A CN110413570 A CN 110413570A
Authority
CN
China
Prior art keywords
document
user
information
permission
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910557297.4A
Other languages
English (en)
Inventor
马振
陈鹏
杨杉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Datang Software Technologies Co Ltd
Original Assignee
Datang Software Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Datang Software Technologies Co Ltd filed Critical Datang Software Technologies Co Ltd
Priority to CN201910557297.4A priority Critical patent/CN110413570A/zh
Publication of CN110413570A publication Critical patent/CN110413570A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • G06F16/134Distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Storage Device Security (AREA)

Abstract

本发明提供了一种文档检索方法,属于检索技术领域。所述方法包括:接收用户的文档检索请求;所述文档检索请求中包括:用户标识与检索关键词;根据所述检索关键词查询预置的索引库,以得到与所述检索关键词相匹配的索引信息;接收所述用户针对所述索引信息对应文档的获取请求,确定所述用户标识对应的文档权限;向所述用户返回所述文档权限对应的文档内容。本发明提供的文档检索方法,可以向用户返回其文档权限对应的文档内容,在保证便利性的同时,加强文档的安全性。

Description

一种文档索引和检索方法及其装置
技术领域
本发明属于信息检索领域,特别是涉及一种文档检索方法和一种文档检索装置。
背景技术
公司所有部门的文档都需要进行留痕存储,大多都存储在SVN(Subversion,SVN)服务器上,进行集中管理,经过长时间的积累,文档虽然越来越完善了,但是随着文档目录、文档种类、文档数量越来越多,想要找到自己想要的文档,如果无法准确记忆文档的存储位置,那么无异于大海捞针,再加上SVN服务器集中式管理的特性,使文档查找变得更加困难,这些完善的文档由于检索调用的困难只能默默地存储到磁盘中,难以发挥它重要的价值。
现有SvnQuery软件可以实现SVN服务器中文件的全文检索,但是有很强的局限性。SvnQuery在检索过程中,会将用户输入的关键词匹配的文档全部返回给用户,也会下载用户选择下载的文档完整的内容,使得文档的安全性得不到有效的保证。
发明内容
有鉴于此,本发明提供一种文档检索方法,以便解决或部分解决上述检索过程中文档安全性得不到保证的问题。
依据本发明的第一方面,提供了一种文档检索方法,该方法可以包括:
接收用户的文档检索请求;所述文档检索请求中包括:用户标识与检索关键词。
根据所述检索关键词查询预置的索引库,以得到与所述检索关键词相匹配的索引信息。
接收所述用户针对所述索引信息对应文档的获取请求,确定所述用户标识对应的文档权限。
向所述用户返回所述文档权限对应的文档内容。
依据本发明的第二方面,提供了一种文档检索装置,该装置可以包括:
检索请求接收模块,用于接收用户的文档检索请求;所述文档检索请求中包括:用户标识与检索关键词。
索引检索模块,用于根据所述检索关键词查询预置的索引库,以得到与所述检索关键词相匹配的索引信息。
文档权限获取模块,用于接收所述用户针对所述索引信息对应文档的获取请求,确定所述用户标识对应的文档权限。
文档返回模块,用于向所述用户返回所述文档权限对应的文档内容。
针对现有技术,本发明具备如下优点:
本发明实施例提供了一种文档检索方法,通过接收的用户检索请求,并根据检索请求对中的检索关键词从而获得对应的索引信息,再根据索引信息获得对应的文档,并通过用户权限控制对用户对文档的获取,本发明实施例提供的文档检索方法,可以向所述用户返回其文档权限对应的文档内容,在保证便利性的同时,加强了文档的安全性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明实施例提供的一种文档检索方法的步骤流程图;
图2是本发明实施例提供的另一种文档检索方法的步骤流程图;
图3为本发明实施例中的一种文档权限管理方法的流程示意图;
图4是本发明实施例中一种文档检索装置的结构框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1是本发明实施例提供的一种文档检索方法的步骤流程图,如图1所示,该方法可以包括:
步骤101:接收用户的文档检索请求;所述文档检索请求中包括:用户标识与检索关键词。
本发明实施例中,可以设置提供检索服务的服务器,当用户检索文档前,提供检索服务的服务器可以首先对用户进行LDAP(Lightweight Directory Access Protocol,轻量目录访问协议)验证,对用户分别进行标记获得用户标识,并保存对应的密码获得账户信息,由提供检索服务的服务器进行统一管理,可以限定该账户信息对应的用户应至少具有一个目录的文档权限,否则不能登录,以及进行后续的文档检索等操作。
本发明实施例中,当服务器向用户提供检索服务时,可以接收用户标识以及检索关键词,用户标识包括用户ID、账户名称、终端ID等等,检索关键词可以是文档存储位置的全部或部分信息、文档建立时间的全部或部分信息、文档内容的全部或部分信息,文档名称的全部或部分信息,用户标识也可以不在检索时接收,而是自动获取用户登录时输入的账户信息作为用户标识。
步骤102:根据所述检索关键词查询预置的索引库,以得到与所述检索关键词相匹配的索引信息。
本发明实施例中,在接收到用户的文档检索请求后,根据文档检索请求中的检索关键词,在预置的索引库中检索与检索关键词匹配的索引信息,根据关键词匹配的索引信息可以是一个也可以是多个,具体地,与用户提供的检索关键词以及检索精准度的设置有关,检索精准度的设置可以是仅返回匹配度达到一定阈值的索引信息,也可以是对于哪些关键词的索引信息不予返回等,本发明对此不做具体限制。
步骤103:接收所述用户针对所述索引信息对应文档的获取请求,确定所述用户标识对应的文档权限。
本发明实施例中,在根据用户文档检索请求中的检索关键词匹配好索引信息后,可以将索引信息显示给用户,具体地,可以是显示与检索关键词的匹配度,也可以是显示与检索关键词相匹配的内容,比如检索关键词为文档文档存储位置的全部或部分信息,则显示与检索关键词相匹配的文档存储位置的全部或部分信息;若检索关键词为文档建立时间的全部或部分信息,则显示与检索关键词相匹配的文档建立时间的全部或部分信息;若检索关键词为文档内容的全部或部分信息,则显示与检索关键词相匹配的文档内容的全部或部分信息;若检索关键词为文档名称的全部或部分信息,则显示与检索关键词相匹配的文档内容的全部或部分信息,本领域技术人员也可以选择其他的显示方式,本发明对索引信息的显示方式不做具体限制。
本发明实施例中,在对索引信息进行显示时,对索引信息进行排序,可选地,可以根据与检索关键词的匹配度由高到低进行排序,由于与检索关键词的匹配度越高,越有可能是用户需要的文档,因此将与检索关键词匹配度高的文档置于前列,能够大大节省用户的检索时间,提高检索效率。
本发明实施例中,服务器可以根据用户对显示的索引信息的选择操作,从而接收用户发起的针对该索引信息对应文档的获取请求,选择操作可以是单击、双击或长按显示的索引信息,或者也可以通过点击拖拽的形式,一次选择多个显示的索引信息,本发明对选择显示的索引信息的具体操作不做限制。
本发明实施例中,当接收到用户针对显示的索引信息对应文档的获取请求后,可以确定该索引信息的对应的文档,并根据用户标识确定该用户对文档的文档权限,文档权限中记录用户对哪些文档可以进行哪些操作的信息,文档权限可以存储在提供检索服务的服务器本地,也可以存储在云端的共享服务器中,以节省服务器本地的存储间,提供更大范围的文档检索。
本发明实施例中,文档权限可以以文档存储位置的目录形式指向具体文档,即文档权限中记录用户对主目录-子目录1-子目录2下的文档具有权限,或者,文档权限也可以以文档建立时间的形式指向具体文档,即文档权限中记录用户对建立时间20xx年x月a日至20xx年x月b日建立的文档具有权限,本领域技术人员可根据具体要求选择合适的文档权限指向具体文档的方式。
本发明实施例中,文档权限除指明具体文档外,还可以说明该用户可以对文档执行的具体操作,可以包括在线编辑权限,如在线删除、添加内容等,文档获取权限如下载、部分内容下载、对下载后的文档的编辑权限,如只读、编辑等。
本发明实施例中,还可以根据用户发起请求的类型进行针对用户标识获取用户对应的不同文档权限,如,当用户长按某一索引信息至预设时间后,显示选择框,包括在线编辑文档、获取文档等,当用户选择在线编辑文档时,获取用户的在线编辑权限,并限制用户只能对文档执行在线编辑权限内的操作,当用户选择获取文档时,根据用户的文档获取请求,获取用户的获取权限,还可以一并获取用户对下载后的文档的编辑权限。
步骤104:向所述用户返回所述文档权限对应的文档内容。
本发明实施例中,根据用户的文档权限,向用户返回其获取请求中对应文档,返回文档时仅返回用户的文档权限内的内容,如文档获取权限为全文下载,则将文档全部内容返回,如文档获取权限为部分下载,则根据文档获取权限中限定的范围返回文档内容,另外,还可以根据对下载后的文档的编辑权限对文档进行加密、锁定等操作,本发明对此不做具体限制,当用户的文档权限中不包括获取请求中对应文档是,则可以向用户返回无该文档权限的信息,以便用户了解情况。
本发明实施例提供了一种文档检索方法,通过接收的用户检索请求,并根据检索请求对中的检索关键词从而获得对应的索引信息,再根据索引信息获得对应的文档,并通过用户权限控制对用户对文档的获取,本发明实施例提供的文档检索方法,可以向所述用户返回其文档权限对应的文档内容,在保证便利性的同时,加强了文档的安全性。
图2是本发明实施例提供的另一种文档检索方法的步骤流程图,如图2所示,该方法可以包括:
步骤201:接收用户的文档检索请求;所述文档检索请求中包括:用户标识与检索关键词。
本发明实施例中,文档检索请求中的检索关键词可以是一个也可以是多个,本发明对此不做限制。
本发明实施例中,可以向用户提供多维度条件搜索的功能,用户可以限定搜索条件,如文档长度、文档类型、文档存储位置、文档建立时间等等,从而缩小检索范围,提高检索效率,也可以向用户提供搜索建议、热搜提示等功能,帮助用户更好的定位自己的检索关键词,可以向用户提供搜索条件选择弹窗进行条件搜索,也可以在搜索栏中输入相应的符号,如include()代表搜索结果包括括号中的条件,exclude()代表搜索结果不包括括号中的条件。
本发明实施例中,检索关键词可以包括:字、词、短语、句子、段落等,可选地,可以对用户输入的短语、句子或段落等进行分词处理,还可以对分词处理后的关键词根据内容、词性等条件进行过滤,以获得至少一个检索关键词。
步骤202:根据所述检索关键词查询预置的索引库,以得到与所述检索关键词相匹配的索引信息。
可选地,所述索引信息包括索引关键词与文档的预览信息之间的对应关系。
本发明实施例中,索引信息包括索引关键词与文档预览信息之间的对应关系,索引信息保存在预置的索引库中,本发明实施例中,预置的索引库的建立步骤包括:
步骤2021:获取待索引的文档。
本发明实施例中,在建立预置的索引库之前,首先需要获取待索引的文档,可以获取提供检索服务的服务器本地的文档,也可以获取远端仓库存储的文档,远端仓库是类似云端共享的文档储存仓库,用于存储用户上传的、多人共同开发共享的文档等,在获取待索引的文档时,同时对远端仓库的文档进行读取可以,增加文档的全面性,扩大检索的范围,能够为更广大的用户群体提供文档检索服务。
本发明实施例中,在进行远端仓库文档获取时,可以将远端仓库的文档下载至提供检索服务的服务器,并根据文档在远端仓库存储的位置建立该文档的存储目录,以方便文档以及文档权限的管理,同时,在远端仓库的文档内容发生改变时,由于存储位置相相同,也能更方便同步将文档内容的改变同步至本地。
本发明实施例中,获取的文档可以是多种类型,包括普通文本文档,如.txt、.java、.xml等格式的文档,以及办公文档,如word、Excel、PPT等,本发明对此不做具体限制。
步骤2022:将所述文档转化为预览信息;所述预览信息为超文本标记语言HTML格式的文档。
本发明实施例中,在获得待索引文档后,需要将文档转化为预览信息,可以是将文档转化为HTML(Hyper Text Markup Language,超文本标记语言)文档进行存储,对于普通文本文档,可以通过Highlight进行格式转化,Highlight是一个常用的源代码转换器,可以将源代码转换成XML(Extensible Markup Language,可扩展标记语言)、HTML(HyperTextMarkup Language,超文本标记语言)、XHTML(Extensible HyperText Markup Language,可扩展超文本标记语言)、RTF(Rich Text Format,多信息文本格式)、SVG(Scalable VectorGraphics,可缩放矢量图形)、BBCode(Bulletin Board Code,BB代码)等格式,并带有语法着色的能力,本发明实施例中,可以通过Highlight将.txt、.java、.xml等格式的文档转化为HTML格式的文档,作为预览信息;对于办公文档,需要先对其进行解析,对于word、Excel、PPT等格式的文档,可以通过openoffice这一跨平台的办公软件进行解析,然后再转化成为为HTML格式的文档,作为预览信息,这样相比于过去仅对.txt格式的文本文档进行索引,本发明实施例能够针对更多格式的文档进行索引,提供更大范围的检索服务。
步骤2023:对所述预览信息进行关键词提取,并建立所述关键词与所述预览信息间的对应关系,获得索引信息。
本发明实施例中,可以采用Solr(Search On Lucene Replication)进行索引,Solr是一个开源的搜索服务器,是一个高性能,采用Java开发,基于Lucene(全文搜索引擎,是一个开放源代码的全文检索引擎工具包)的全文搜索服务器,对外提供API(ApplicationProgramming Interface,应用程序编程接口)能够更好地进行二次开发,可以更加灵活的自动义界面,可以实现快速分布式索引,快速查询索引内容。
本发明实施例中,在获得待索引文档转换成的预览信息后,需要对预览信息进行关键词提取,该关键词用于与用户输入的检索关键词进行匹配,以便确认用户检索的目标文档是否为该关键词所属的预览信息对应的文档,因此,为了保证检索的准确度,需要对预览信息全文进行关键词提取,在提取时,可以设置不同的提取精度,可以对预览信息中每一个字进行提取,也可以借助分词技术,按照语义单位对预览信息中的每一个词进行提取。
本发明实施例中,在获取预览信息的关键词后,可建立关键词与预览信息的对应关系作为索引信息,如预览信息1中提取关键词“电脑”,则建立“电脑-预览信息1”的索引信息,当检索关键词与“电脑”匹配成功时,可以根据该索引信息指向预览信息1,可选地,还可以记录每一个字或每一个词在该预览信息中出现的次数与位置,这样当用户的检索时输入的检索关键词与与预览信息匹配成功时,可以展示给用户,即当检索关键词与“电脑”匹配成功时,可以根据该索引信息指向预览信息1的第a页第b行,帮助用户更全面的把握文档的实际情况。
本发明实施例中,除了对预览信息文本内容进行全文索引以外,还可以对文件的文件名、建立日期、修改日期等进行索引,这样用户在检索时除了通过回忆文档内容输入检索关键词以外,还可以选择其他的文档相关信息进行检索,帮助用户扩大检索关键词的选择,提升检索的精度。
步骤2024:将所述索引信息进行存储,以获得所述预置的索引库。
本发明实施例中,在对索引信息进行存储时,可以按照目录的形式对语义相同或相近的关键词对应的索引信息进行归类存储,如关键词“电脑”对应的索引信息有“电脑-预览信息1”、“电脑-预览信息2”,则在存储时,可以将“预览信息1”、“预览信息2”储存在关键词“电脑”的条目下,以便管理。
本发明实施例中,对索引后的预览信息以及索引信息可以存储在提供检索服务器的本地,以方便使用时快速调用,为了保证服务器本地磁盘的充足,也可以在对预览信息索引后将其与索引信息存储在HDFS(Hadoop Distributed File System,分布式文件系统)集群中,HDFS有高容错性的特点,并且可以用来部署在低廉的硬件上,而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序,在降低部署成本的同时,提高数据处理效率。
本发明实施例中,对于索引库中的索引信息可以进行定时的更新,每隔预设时间,可以对所有的文档进行重新索引,也可以仅对预设时间内新建立的文档或有编辑记录的文档进行重新索引,这样能够避免大量的重复工作,也避免大量数据重新获取存储等带来的不稳定、不安全的问题。
步骤203:接收所述用户针对所述索引信息对应文档的获取请求,确定所述用户标识对应的文档权限。
可选地,在所述步骤203之前,所述方法还包括:
步骤2031:根据所述索引信息,确定所述获取请求对应文档的预览信息。
本发明实施例中,在获得获取请求中的检索关键词以及用户标识后,首先根据检索关键词在预置的索引信息库中查询索引信息,此时,即根据检索关键词与索引信息中关键词的匹配度,查找对应关键词的条目,以获得对应的索引信息,此时,可将索引信息展示给用户,可选地,可以是与检索关键词匹配的关键词,以及检索关键词在预览信息中出现的次数与位置等,可选地,在显示检索关键词在预览信息中出现的位置时,可以以高亮的形式将其显示在对应的句子或段落中,可选地,还可以显示所述检索关键词以及所述预览信息的名称、建立时间等。
本发明实施例中,服务器可以接收用户根据显示的内容选择的可能是检索目标的索引信息,从而发起的文档预览请求,所述文档预览请求中应包括索引信息,在接收到用户文档预览请求后,可根据其中的索引信息确定并获取对应的预览信息。
步骤2032:根据所述用户标识,确定所述用户的预览权限。
本发明实施例中,在获得预览信息后,可以根据文档检索请求中的用户标识确定用户针对该文档预览信息的预览权限,即根据用户标识获得其对应的预览权限,并在预览权限中查找是否有该预览信息的权限,如果有,再确认在预览权限中该预览信息权限的具体内容,如全部预览、部分预览等,如果没有,则返回无权限预览的信息。
步骤2033:根据所述预览权限,向所述用户展示所述获取请求对应文档的预览信息。
本发明实施例中,在确认用户对该预览信息具有预览权限,并确认了预览权限的具体内容后,则可根据预览权限将预览信息展示给用户,当用户的预览权限为全部预览时,则将全部的预览信息展示给用户,当用户的预览权限为部分预览时,根据预览权限中具体对部分的限定,展示预览信息,如预览权限为预览信息1第1页,则仅向用户展示预览信息1第1页的内容。
本发明实施例中,在向用户展示预览信息时,可以将与检索关键词相匹配的关键词进行高亮显示,以便用户更加直观的判断该索引信息对应的文档是否为用户需要的文档。
本发明实施例中,用户可根据预览信息的内容,更全面深入的了解文档的实际内容,从而能够确认该索引信息对应的文档是否为用户需要的文档,从而能够更精准的进行文档检索,当用户根据预览信息的内容确认该索引信息对应的文档不是用户需要的文档时,可退出预览界面,重新选择下一个索引信息发出文档预览请求,当用户根据预览信息的内容确认该索引信息对应的文档时用户需要的文档时,可以通过选择预览界面中获取、下载等的按钮,从而发出文档获取请求,后续执行步骤203。
步骤204:向所述用户返回所述文档权限对应的文档内容。
可选地,图3为本发明实施例中的一种文档权限管理方法的流程示意图,如图3所示,在图2的基础上,所述方法还包括:
步骤205:接收所述用户的文档权限管理请求;所述文档权限管理请求中包括所述用户的用户标识。
本发明实施例中,服务器除了向用户提供检索服务外,还可以提供对文档进权限行管理功能,此时用户可以通过预设操作,如使用管理员账号登录、选择检索界面中的文档权限管理按钮等,从而发起文档权限管理请求,可选地,文档权限管理请求可以包括用户的用户标识,以便识别,本发明对此不做限制。
步骤206:根据所述用户标识,验证所述用户是否具有文档权限管理权限,若是则向所述用户提供管理功能页面,以使用户通过选择不同的管理功能对用户信息和/或目录权限和/或文件权限进行管理。
本发明实施例中,可以根据文档权限管理请求中的用户标识,验证用户是否有权限管理权限,可选地,可以验证用户是否具有权限管理权限,如果有,那么验证用户权限管理权限的内容,即用户可以管理的目录、文档、用户信息等,以及可以管理的权限,如添加、删除、更改等。
本发明实施例中,当确认用户具有文档管理权限后,可以向用户提供管理功能页面,其中包括用户信息管理功能、目录权限管理功能、文件权限功能等,其中,用户信息可以是用户的用户标识、用户的历史检索记录等,用户标识用于登录、确认权限等,用户历史检索记录用于分析用户的检索习惯,以向用户提供更好的检索服务,用户可以在用户信息管理功能中对用户标识进行更改、对历史检索记录进行删除等;其中,目录为文档以多级目录形式记录的文档存储位置,用户可以在目录权限管理功能中,将某一目录下的文档加入到某一用户的文档权限中,或从某一用户的文档权限中删除某一目录下的文档,如用户原文档权限中包括主目录-子目录1-子目录2,在本次操作中,将子目录3下的文档加入用户的文档权限中,在用户的文档权限包括主目录-子目录1-子目录2-子目录3,或将子目录2的文档从用户的文档权限中删除,则用户的文档权限包括主目录-子目录1;其中,文件包括对文档的预览、编辑、在线编辑、下载等权限,用户可以对文档权限中针对具体文档或针对某一目录下文档的预览、编辑、在线编辑、下载等权限进行更改,本领域技术人员还可以对文档其他的权限进行管理,本发明对此不做具体限制。
本发明实施例中,根据用户标识对应的权限管理权限的内容,也可以设置用户不仅能对自己的权限进行管理,也能对其他用户的权限进行管理,可选地,可以是权限管理权限高的用户对权限管理权限低的用户进行管理。
本发明实施例提供了一种文档检索方法,通过接收的用户检索请求,并根据检索请求对中的检索关键词从而获得对应的索引信息,再根据索引信息获得对应的文档,并通过用户权限控制对用户对文档的获取,,本发明实施例提供的文档检索方法,可以向所述用户返回其文档权限对应的文档内容,在保证便利性的同时,加强了文档的安全性。另外,本发明实施例中可以对提供了文档下载前先预览的步骤,用户可以通过预览对文档的内容有更加准确全面的把握,从而避免下载后才发现不是自己需要的文档的问题
图4是本发明实施例中一种文档检索装置400的结构框图,如图4所示,所述装置可以包括:
检索请求接收模块401,用于接收用户的文档检索请求;所述文档检索请求中包括:用户标识与检索关键词;
索引检索模块402,用于根据所述检索关键词查询预置的索引库,以得到与所述检索关键词相匹配的索引信息;
文档权限获取模块403,用于接收所述用户针对所述索引信息对应文档的获取请求,确定所述用户标识对应的文档权限;
文档返回模块404,用于向所述用户返回所述文档权限对应的文档内容。
可选地,所述索引信息包括索引关键词与文档的预览信息之间的对应关系。
可选地,所述装置还包括:
预览信息获取模块,用于根据所述索引信息,确定所述获取请求对应文档的预览信息。
预览权限获取模块,用于根据所述用户标识,确定所述用户的预览权限。
预览信息展示模块,用于根据所述预览权限,向所述用户展示所述获取请求对应文档的预览信息。
可选地,所述装置还包括:
管理请求接收模块,用于接收所述用户的文档权限管理请求;所述文档权限管理请求中包括所述用户的用户标识;
管理权限验证模块,用于根据所述用户标识,验证所述用户是否具有文档权限管理权限,若是则向所述用户提供管理功能页面,以使用户通过选择不同的管理功能对用户信息和/或目录权限和/或文件权限进行管理。
可选地,所述装置还包括预置索引库建立模块,所述阈值索引库建立模块包括:
待索引文档获取子模块,用于获取待索引的文档;
预览信息转化子模块,用于将所述文档转化为预览信息;所述预览信息为超文本标记语言HTML格式的文档;
索引子模块,用于对所述预览信息进行关键词提取,并建立所述关键词与所述预览信息间的对应关系,获得索引信息;
索引存储子模块,用于将所述索引信息进行存储,以获得所述预置的索引库。
对于上述装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
另外,本发明实施例还提供一种终端,包括处理器,存储器,存储在存储器上并可在处理上运行的计算机程序,该计算机程序被处理器执行时实现上述文档检索方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述文档检索方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,可以为只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域技术人员易于想到的是:上述各个实施例的任意组合应用都是可行的,故上述各个实施例之间的任意组合都是本发明的实施方案,但是由于篇幅限制,本说明书在此就不一一详述了。
在此提供的文档检索方法不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造具有本发明方案的系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的文档检索方法中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种文档检索方法,其特征在于,所述方法包括:
接收用户的文档检索请求;所述文档检索请求中包括:用户标识与检索关键词;
根据所述检索关键词查询预置的索引库,以得到与所述检索关键词相匹配的索引信息;
接收所述用户针对所述索引信息对应文档的获取请求,确定所述用户标识对应的文档权限;
向所述用户返回所述文档权限对应的文档内容。
2.根据权利要求1所述的方法,其特征在于,所述索引信息包括索引关键词与文档的预览信息之间的对应关系。
3.根据权利要求2所述的方法,其特征在于,所述接收所述用户针对所述索引信息对应文档的获取请求,确定所述用户信息对应的文档权限的步骤之前,还包括:
根据所述索引信息,确定所述获取请求对应文档的预览信息;
根据所述用户标识,确定所述用户的预览权限;
根据所述预览权限,向所述用户展示所述获取请求对应文档的预览信息。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收所述用户的文档权限管理请求;所述文档权限管理请求中包括所述用户的用户标识;
根据所述用户标识,验证所述用户是否具有文档权限管理权限,若是则向所述用户提供管理功能页面,以使用户通过选择不同的管理功能对用户信息和/或目录权限和/或文件权限进行管理。
5.根据权利要求1至4中任一所述的方法,其特征在于,所述预置的索引库的建立步骤包括:
获取待索引的文档;
将所述文档转化为预览信息;所述预览信息为超文本标记语言HTML格式的文档;
对所述预览信息进行关键词提取,并建立所述关键词与所述预览信息间的对应关系,获得索引信息;
将所述索引信息进行存储,以获得所述预置的索引库。
6.一种文档检索装置,其特征在于,所述装置包括:
检索请求接收模块,用于接收用户的文档检索请求;所述文档检索请求中包括:用户标识与检索关键词;
索引检索模块,用于根据所述检索关键词查询预置的索引库,以得到与所述检索关键词相匹配的索引信息;
文档权限获取模块,用于接收所述用户针对所述索引信息对应文档的获取请求,确定所述用户标识对应的文档权限;
文档返回模块,用于向所述用户返回所述文档权限对应的文档内容。
7.根据权利要求6所述的装置,其特征在于,所述索引信息包括索引关键词与文档的预览信息之间的对应关系。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
预览信息获取模块,用于根据所述索引信息,确定所述获取请求对应文档的预览信息;
预览权限获取模块,用于根据所述用户标识,确定所述用户的预览权限;
预览信息展示模块,用于根据所述预览权限,向所述用户展示所述获取请求对应文档的预览信息。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
管理请求接收模块,用于接收所述用户的文档权限管理请求;所述文档权限管理请求中包括所述用户的用户标识;
管理权限验证模块,用于根据所述用户标识,验证所述用户是否具有文档权限管理权限,若是则向所述用户提供管理功能页面,以使用户通过选择不同的管理功能对用户信息和/或目录权限和/或文件权限进行管理。
10.根据权利要求6至9任意一项所述的装置,其特征在于,所述装置还包括预置索引库建立模块,所述阈值索引库建立模块包括:
待索引文档获取子模块,用于获取待索引的文档;
预览信息转化子模块,用于将所述文档转化为预览信息;所述预览信息为超文本标记语言HTML格式的文档;
索引子模块,用于对所述预览信息进行关键词提取,并建立所述关键词与所述预览信息间的对应关系,获得索引信息;
索引存储子模块,用于将所述索引信息进行存储,以获得所述预置的索引库。
CN201910557297.4A 2019-06-25 2019-06-25 一种文档索引和检索方法及其装置 Pending CN110413570A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910557297.4A CN110413570A (zh) 2019-06-25 2019-06-25 一种文档索引和检索方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910557297.4A CN110413570A (zh) 2019-06-25 2019-06-25 一种文档索引和检索方法及其装置

Publications (1)

Publication Number Publication Date
CN110413570A true CN110413570A (zh) 2019-11-05

Family

ID=68358222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910557297.4A Pending CN110413570A (zh) 2019-06-25 2019-06-25 一种文档索引和检索方法及其装置

Country Status (1)

Country Link
CN (1) CN110413570A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110968602A (zh) * 2019-11-29 2020-04-07 曙光信息产业股份有限公司 一种数据的查询方法、装置及存储介质
CN111191257A (zh) * 2019-12-02 2020-05-22 泰康保险集团股份有限公司 一种文件的预览处理方法和装置
CN111339244A (zh) * 2020-02-29 2020-06-26 山东浪潮通软信息科技有限公司 税务政策法规查询方法、计算机设备和存储介质
CN112527954A (zh) * 2020-12-03 2021-03-19 武汉联影医疗科技有限公司 非结构化数据全文搜索方法、系统及计算机设备
CN112788091A (zh) * 2020-05-09 2021-05-11 珠海金山办公软件有限公司 文档内容提供系统、文档内容收集方法、装置及设备
CN115357943A (zh) * 2022-10-24 2022-11-18 天津联想协同科技有限公司 保护文档的下载方法、装置及存储介质
CN116701615A (zh) * 2023-08-08 2023-09-05 建信金融科技有限责任公司 业务文档在线管理方法、装置、电子设备及可读存储介质
CN117408652A (zh) * 2023-12-15 2024-01-16 江西驱动交通科技有限公司 一种档案数据分析管理方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104636368A (zh) * 2013-11-11 2015-05-20 腾讯科技(深圳)有限公司 数据检索方法、装置及服务器
US20180034752A1 (en) * 2014-06-18 2018-02-01 Microsoft Technology Licensing, Llc Ranking relevant discussion groups
CN109255084A (zh) * 2018-08-28 2019-01-22 腾讯科技(深圳)有限公司 电子票据查询方法、装置、存储介质和计算机设备
CN109598130A (zh) * 2017-09-30 2019-04-09 北京金山软件有限公司 知识产权数据查询系统、方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104636368A (zh) * 2013-11-11 2015-05-20 腾讯科技(深圳)有限公司 数据检索方法、装置及服务器
US20180034752A1 (en) * 2014-06-18 2018-02-01 Microsoft Technology Licensing, Llc Ranking relevant discussion groups
CN109598130A (zh) * 2017-09-30 2019-04-09 北京金山软件有限公司 知识产权数据查询系统、方法、装置、设备及存储介质
CN109255084A (zh) * 2018-08-28 2019-01-22 腾讯科技(深圳)有限公司 电子票据查询方法、装置、存储介质和计算机设备

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110968602A (zh) * 2019-11-29 2020-04-07 曙光信息产业股份有限公司 一种数据的查询方法、装置及存储介质
CN111191257A (zh) * 2019-12-02 2020-05-22 泰康保险集团股份有限公司 一种文件的预览处理方法和装置
CN111339244A (zh) * 2020-02-29 2020-06-26 山东浪潮通软信息科技有限公司 税务政策法规查询方法、计算机设备和存储介质
CN112788091A (zh) * 2020-05-09 2021-05-11 珠海金山办公软件有限公司 文档内容提供系统、文档内容收集方法、装置及设备
CN112788091B (zh) * 2020-05-09 2023-05-26 珠海金山办公软件有限公司 文档内容提供系统、文档内容收集方法、装置及设备
CN112527954A (zh) * 2020-12-03 2021-03-19 武汉联影医疗科技有限公司 非结构化数据全文搜索方法、系统及计算机设备
CN115357943A (zh) * 2022-10-24 2022-11-18 天津联想协同科技有限公司 保护文档的下载方法、装置及存储介质
CN116701615A (zh) * 2023-08-08 2023-09-05 建信金融科技有限责任公司 业务文档在线管理方法、装置、电子设备及可读存储介质
CN116701615B (zh) * 2023-08-08 2023-11-03 建信金融科技有限责任公司 业务文档在线管理方法、装置、电子设备及可读存储介质
CN117408652A (zh) * 2023-12-15 2024-01-16 江西驱动交通科技有限公司 一种档案数据分析管理方法及系统

Similar Documents

Publication Publication Date Title
CN110413570A (zh) 一种文档索引和检索方法及其装置
US9390179B2 (en) Federated search
US7788262B1 (en) Method and system for creating context based summary
US8631097B1 (en) Methods and systems for finding a mobile and non-mobile page pair
US8275888B2 (en) Indexing heterogeneous resources
CN103430177A (zh) 用于提供内容提供者指定的url关键字导航的方法及系统
CN107085583B (zh) 一种基于内容的电子文档管理方法及装置
US20100174704A1 (en) Searching method and system
US7792857B1 (en) Migration of content when accessed using federated search
McTavish et al. Phylesystem: a git-based data store for community-curated phylogenetic estimates
US11030163B2 (en) System for tracking and displaying changes in a set of related electronic documents
AU2015331030A1 (en) System generator module for electronic document and electronic file
CN104391941A (zh) 一种快速构建常用文件全文检索工具的方法
US20070185832A1 (en) Managing tasks for multiple file types
JP5185402B2 (ja) 文書検索装置、文書検索方法、及び文書検索プログラム
JP2013016176A (ja) 複数のコンテンツサイトで記事コンテンツの検索を行う方法及び装置
Cox et al. SISSVoc: A Linked Data API for access to SKOS vocabularies
CN110674087A (zh) 文件查询方法、装置及计算机可读存储介质
JP7293780B2 (ja) 情報処理装置、文書管理システム及びプログラム
US10262056B2 (en) Method and system for performing search queries using and building a block-level index
KR102463120B1 (ko) 문서 다운로드시 사용자 맞춤형 파일명 생성 기능을 제공하는 특허 문서 검색 서버 및 이를 이용한 특허 문서 검색 방법
Francisco‐Revilla et al. Encoded archival description: Data quality and analysis
JP2004185095A (ja) 情報検索システム、情報検索方法およびプログラム
Bennett et al. assignFAST: An autosuggest based tool for FAST subject assignment
CN113868375A (zh) 基于结构化查询语言的数据查询方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191105

RJ01 Rejection of invention patent application after publication