CN108363768A - 一种基于Lucene的文档搜索方法、存储介质和服务器 - Google Patents

一种基于Lucene的文档搜索方法、存储介质和服务器 Download PDF

Info

Publication number
CN108363768A
CN108363768A CN201810121900.XA CN201810121900A CN108363768A CN 108363768 A CN108363768 A CN 108363768A CN 201810121900 A CN201810121900 A CN 201810121900A CN 108363768 A CN108363768 A CN 108363768A
Authority
CN
China
Prior art keywords
document
lucene
data source
display interface
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810121900.XA
Other languages
English (en)
Inventor
瞿康敏
洪光宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Smart Technology Co Ltd
Original Assignee
OneConnect Smart Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Smart Technology Co Ltd filed Critical OneConnect Smart Technology Co Ltd
Priority to CN201810121900.XA priority Critical patent/CN108363768A/zh
Publication of CN108363768A publication Critical patent/CN108363768A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及文档搜索技术领域,提出一种基于Lucene的文档搜索方法、存储介质和服务器。该文档搜索方法包括:获取输入的查询语句;对所述查询语句进行识别,得到目标关键词;使用Lucene从预置的数据源中搜索与所述目标关键词对应的目标文档;在预置的显示界面中展示所述目标文档。其中,所述数据源通过以下步骤设置:在数据库中创建各个源配置表;分别为各个所述源配置表所对应的数据源中的各个文档建立索引,并将得到的索引存放在Lucene的索引库中。所述显示界面通过以下步骤设置:在所述数据库中创建界面配置表,所述界面配置表包含所述显示界面的配置信息,所述配置信息决定所述显示界面的展示效果。本申请能够解决使用Lucene进行文档搜索时用户体验较差的问题。

Description

一种基于Lucene的文档搜索方法、存储介质和服务器
技术领域
本发明涉及文档搜索技术领域,尤其涉及一种基于Lucene的文档搜索方法、存储介质和服务器。
背景技术
Lucene是一个用Java写的全文索引引擎工具包,它可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。采用Lucene能够同时设置多个数据源,便于同时对本地或企业内部网络的各类信息进行集中搜索。然而,Lucene本身并不是一个完善的全文索引搜索工具,对于普通用户来说,难以直接使用Lucene进行文档的搜索,用户体验较差。
发明内容
有鉴于此,本发明实施例提供了一种基于Lucene的文档搜索方法、存储介质和服务器,旨在解决使用Lucene进行文档搜索时用户体验较差的问题。
本发明实施例的第一方面,提供了一种基于Lucene的文档搜索方法,包括:
获取输入的查询语句;
对所述查询语句进行识别,得到目标关键词;
使用Lucene从预置的数据源中搜索与所述目标关键词对应的目标文档;
在预置的显示界面中展示所述目标文档;
其中,所述数据源通过以下步骤设置:
在数据库中创建各个源配置表,所述源配置表包含对应的数据源信息,每个所述源配置表对应于一个数据源;
分别为各个所述源配置表所对应的数据源中的各个文档建立索引,并将得到的索引存放在Lucene的索引库中;
所述显示界面通过以下步骤设置:
在所述数据库中创建界面配置表,所述界面配置表包含所述显示界面的配置信息,所述配置信息决定所述显示界面的展示效果。
本发明实施例的第二方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如本发明实施例的第一方面提出的基于Lucene的文档搜索方法的步骤。
本发明实施例的第三方面,提供了一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如下步骤:
获取输入的查询语句;
对所述查询语句进行识别,得到目标关键词;
使用Lucene从预置的数据源中搜索与所述目标关键词对应的目标文档;
在预置的显示界面中展示所述目标文档;
其中,所述数据源通过以下步骤设置:
在数据库中创建各个源配置表,所述源配置表包含对应的数据源信息,每个所述源配置表对应于一个数据源;
分别为各个所述源配置表所对应的数据源中的各个文档建立索引,并将得到的索引存放在Lucene的索引库中;
所述显示界面通过以下步骤设置:
在所述数据库中创建界面配置表,所述界面配置表包含所述显示界面的配置信息,所述配置信息决定所述显示界面的展示效果。
本发明实施例提出的文档搜索方法包括:获取输入的查询语句;对所述查询语句进行识别,得到目标关键词;使用Lucene从预置的数据源中搜索与所述目标关键词对应的目标文档;在预置的显示界面中展示所述目标文档;其中,所述数据源通过以下步骤设置:在数据库中创建各个源配置表,所述源配置表包含对应的数据源信息,每个所述源配置表对应于一个数据源;分别为各个所述源配置表所对应的数据源中的各个文档建立索引,并将得到的索引存放在Lucene的索引库中;所述显示界面通过以下步骤设置:在所述数据库中创建界面配置表,所述界面配置表包含所述显示界面的配置信息,所述配置信息决定所述显示界面的展示效果。本申请利用Lucene构建了一个文档搜索工具,通过在数据库中创建源配置表,能够同时设置多个数据源,从而实现一个索引库容纳多个数据源。而且,通过在数据库中创建界面配置表,用户可以自定义地设置搜索结果界面的展示效果,有效提高了用户体验。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于Lucene的文档搜索方法的第一个实施例的流程图;
图2是本发明实施例提供的一种基于Lucene的文档搜索方法的第二个实施例的流程图;
图3是本发明实施例提供的一种基于Lucene的文档搜索方法的第三个实施例的流程图;
图4是本发明实施例提供的一种基于Lucene的文档搜索方法的第四个实施例的流程图;
图5是本发明实施例提供的一种基于Lucene的文档搜索装置的一个实施例的结构图;
图6是本发明实施例提供的一种服务器的示意图。
具体实施方式
本发明实施例提供了一种基于Lucene的文档搜索方法、存储介质和服务器,旨在解决使用Lucene进行文档搜索时用户体验较差的问题。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例中一种基于Lucene的文档搜索方法的第一个实施例包括:
101、获取输入的查询语句;
本发明实施例利用Lucene构建了一个文档搜索工具,该文档搜索工具具有查询输入框,用户在进行文档搜索时,可以通过该输入框输入相关的文档查询语句。
102、对所述查询语句进行识别,得到目标关键词;
在获取到用户输入的查询语句后,对所述查询语句进行识别,得到目标关键词。这里的语句识别主要包括语法分析、分词等处理,用于将目标关键词从查询语句中识别出来,目标关键词即用于检索文档的关键词。
103、使用Lucene从预置的数据源中搜索与所述目标关键词对应的目标文档;
在得到目标关键词后,使用Lucene从预置的数据源中搜索与所述目标关键词对应的目标文档。由于采用Lucene进行文档搜索的过程属于现有技术,在此不对该过程进行详细描述。
所述数据源是文档数据的来源,通过以下步骤设置:
(1)在数据库中创建各个源配置表,所述源配置表包含对应的数据源信息,每个所述源配置表对应于一个数据源;
(2)分别为各个所述源配置表所对应的数据源中的各个文档建立索引,并将得到的索引存放在Lucene的索引库中。
对于上述步骤(1),在数据库(比如MySQL)中创建源配置表,每个源配置表对应于一个数据源,源配置表中包含对应的数据源信息,比如数据源名称、数据来源、数据格式等。对于企业来说,可以根据企业内部常用的数据源(DB、Office、LDAP、Image等)分别创建出对应的源配置表。采用这种方式能够方便地对数据源进行添加、删除或者修改。比如,通过应用程序代码,添加一个数据源则新建一个表格,删除一个数据源即删除该数据源对应的表格,对数据源进行修改即对表格中的内容进行修改。
对于上述步骤(2),分别为各个所述源配置表所对应的数据源中的各个文档建立索引,并将得到的索引存放在Lucene的索引库中。Lucene的索引创建和存储过程属于现有技术,在此不再赘述。
104、在预置的显示界面中展示所述目标文档。
在搜索到与所述目标关键词对应的目标文档之后,在预置的显示界面中展示这些目标文档。其中,所述显示界面通过以下步骤设置:在数据库中创建界面配置表,所述界面配置表包含所述显示界面的配置信息,所述配置信息决定所述显示界面的展示效果。这里的数据库可以是步骤103中用于创建源配置表的数据库,在具体操作时,可以将不同展示效果的配置信息分别构建成不同的模板数据,当用户希望更改检索界面的展示效果时,即可通过更换所述界面配置表中的模板数据实现。
进一步的,所述方法还可以包括:
在所述数据库中创建定时任务表,建立定时任务;利用所述定时任务定期为所述数据源中的新增文档建立索引。
由于某个数据源的文档数据并不是恒定不变的,有可能会不定时产生大量的新增文档,而为了检索这些新增文档,必须在Lucene中为这些文档建立索引。因此,可以在所述数据库中创建定时任务表,通过这种方式建立用于为新增文档建立索引的定时任务。定时任务每隔一定时长根据数据源表格中的配置数据找到对应的数据源,然后获取该数据源中的新增文件,为这些新增文件建立索引。具体的,假设数据源为公司的doc文件,这些文件一般存放在一个固定的服务里,每天都会新增很多doc文件。定时任务的作用即在每个固定时间内为这些新增加的文件建立索引,定时任务的触发和执行都是依靠应用程序代码。
本发明实施例提出的文档搜索方法包括:获取输入的查询语句;对所述查询语句进行识别,得到目标关键词;使用Lucene从预置的数据源中搜索与所述目标关键词对应的目标文档;在预置的显示界面中展示所述目标文档;其中,所述数据源通过以下步骤设置:在数据库中创建各个源配置表,所述源配置表包含对应的数据源信息,每个所述源配置表对应于一个数据源;分别为各个所述源配置表所对应的数据源中的各个文档建立索引,并将得到的索引存放在Lucene的索引库中;所述显示界面通过以下步骤设置:在所述数据库中创建界面配置表,所述界面配置表包含所述显示界面的配置信息,所述配置信息决定所述显示界面的展示效果。本申请利用Lucene构建了一个文档搜索工具,通过在数据库中创建源配置表,能够同时设置多个数据源,从而实现一个索引库容纳多个数据源。而且,通过在数据库中创建界面配置表,用户可以自定义地设置搜索结果界面的展示效果,有效提高了用户体验。
请参阅图2,本发明实施例中一种基于Lucene的文档搜索方法的第二个实施例包括:
201、获取输入的查询语句;
202、对所述查询语句进行识别,得到目标关键词;
步骤201至202与步骤101至102相同,具体可参照步骤101至102的相关说明。
203、使用Lucene从预置的数据源中搜索与所述目标关键词对应的目标文档;
在本发明实施例中,所述数据源中的每个文档包含对应的加密等级。加密等级限定了一个文档的机密程度,可以用普通文件、一般加密文件、高级加密文件和绝密文件等文字方式描述,也可以用1-10、A-K等数字或字符表示。
进一步的,所述数据源中的文档对应的加密等级可以通过以下多种方式预先设置:
方式1:获取文档的名称中包含的加密关键词;根据所述加密关键词设置所述文档的加密等级。
这里的加密关键词为文档名称中包含的与机密程度相关的关键词,比如文档名称中的“绝密”、“加密”、“机密等级10”和“普通可见”等。在获得这些加密关键词后,即可根据预设的规则和这些加密关键词为文档设置加密等级。比如,若获取到关键词“机密等级10”,则将文档的加密等级设为10;若获取到关键词“机密等级3”,则将文档的加密等级设为3;若获取到关键词“绝密”,则将文档的加密等级设为10。根据实际需求,可以合理设置加密等级的级数范围。
方式2:获取文档创建者的身份信息;根据所述身份信息设置所述文档的加密等级。
由于不同身份用户所创建的文档往往具有不同的保密需求,因此可以根据文档创建者的身份信息以及预设的规则设置文档的加密等级。比如,若文档创建者为董事长身份,则将文档的加密等级设置为10;若文档创建者为总经理身份,则将文档的加密等级设置为8。
方式3:获取文档的创建时间;根据所述创建时间设置所述文档的加密等级。
有时候,文档的加密需求是具有时效性的,在某个时间段文档可能是公开的,而在另一个时间段文档则可能是需要加密的。因此,可以根据文档的创建时间和预设的规则设置文档的加密等级。比如,若文档创建时间为1天内,则将文档的加密等级设置为10;若文档创建时间为1天以上、1月以内,则将文档的加密等级设置为8。
方式4:获取文档的加密因素,所述加密因素包括文档的名称中包含的加密关键词、文档创建者的身份信息和文档的创建时间;根据所述加密因素设置所述文档的加密等级。
为了更合理地设置文档的加密等级,可以综合考虑多种加密因素,比如可以同时考虑文档的名称中包含的加密关键词、文档创建者的身份信息和文档的创建时间。具体的,可以为每一种加密因素设置一个权值,然后再采取加权叠加的方式计算得到文档的加密等级。
方式5:由指定的用户账户设置所述文档的加密等级。
在某些应用场景中,可以由某个指定的用户账户设置数据源中各个文档的加密等级。比如,由文档管理员为数据源中的各个文档设置加密等级。
204、获取当前登录的用户账户的权限等级;
在搜索到目标文档之后,展示目标文档之前,需要根据用户账户的权限等级判断该用户账户是否具有查看目标文档的权限。权限等级用于决定用户可以查看何种加密等级的文档,权限等级越高,则可以查看越高加密等级的文档。具体的,首先获取当前登录的用户账户,然后确定与该用户账户对应的权限等级。
进一步的,各个用户账户的权限等级可以通过以下步骤预先设置:
(1)获取上传的组织架构图;
(2)对所述组织架构图进行解析,得到层级关系链;
(3)根据所述层级关系链依次为各个用户账户分配对应的权限等级。
在企业应用中,可以通过企业的组织架构图设置各个用户账户的权限等级。首先获取上传的组织架构图;然后对该组织架构图进行解析,得到层级关系;接着按照该层级关系依次为各个用户账户分配对应的权限等级。比如,对组织架构图解析得到的层级关系为链:董事长-总经理-经理-主管-组长-普通员工,则依次为普通员工用户分配权限等级1,组长用户分配权限等级2,以此类推。按照实际需求,不同层级的用户身份可以分配同一个权限等级,同一层级的用户身份也可以分配不同的权限等级。
205、根据预设的权限对照表确定所述权限等级能够查看的文档的加密等级范围区间;
在获取当前登录的用户账户的权限等级之后,根据预设的权限对照表确定所述权限等级能够查看的文档的加密等级范围区间。该权限对照表记录了各个权限等级的用户账户能够查看文档的加密等级范围区间,比如权限等级1能够查看文档加密等级为1至3的文档,权限等级6能够查看文档加密等级为1至10的文档。
206、在显示界面中展示加密等级落入所述加密等级范围区间的目标文档。
最后,在搜索结果的显示界面中展示加密等级落入所述加密等级范围区间的目标文档。通过这样设置,每个用户账户只能搜索到符合自身权限的文档,能够有效防止机密文档的泄露。
本发明实施例提出的文档搜索方法包括:获取输入的查询语句;对所述查询语句进行识别,得到目标关键词;使用Lucene从预置的数据源中搜索与所述目标关键词对应的目标文档;获取当前登录的用户账户的权限等级;根据预设的权限对照表确定所述权限等级能够查看的文档的加密等级范围区间;在显示界面中展示加密等级落入所述加密等级范围区间的目标文档。与本发明的第一个实施例相比,本实施例通过设置用户账户的权限等级以及数据源中各个文档的加密等级,使得各个用户账户只能搜索到符合自身权限的文档,能够有效防止机密文档的泄露。
请参阅图3,本发明实施例中一种基于Lucene的文档搜索方法的第三个实施例包括:
301、获取输入的查询语句;
步骤301与步骤101相同,具体可参照步骤101的相关说明。
302、检测所述查询语句中的特定文档关键词;
特定文档关键词可以是数据源中一些常用文档的名称,比如各个企业内部制定的某些特定文档:“XX报表”、“XX职位任命通知书”和“XX公司工资条”等。在获取到查询语句后,检测该查询语句中的特定文档关键词。
303、根据所述特定文档关键词对所述查询语句进行分词,得到目标关键词;
在检测到特定文档关键词后,根据所述特定文档关键词对所述查询语句进行分词,得到目标关键词。具体的,预先构建特定文档关键词,该特定文档关键词包含企业内部常用文档的名称,当获取到用户输入的查询语句后,判断该查询语句中是否包含这些特定文档关键词,若包含这些特定文档关键词,则将这些特定文档关键词提取出来作为检索的目标关键词。通过这样设置,用户可以更加方便准确地搜索到指定应用场景下的常用文档。
304、使用Lucene从预置的数据源中搜索与所述目标关键词对应的目标文档;
步骤304与步骤103相同,具体可参照步骤103的相关说明。
305、分别获取各个所述目标文档的属性信息;
在检索得到各个目标文档后,分别获取各个所述目标文档的属性信息。所述属性信息可以包括文档的主题、修改时间和重要程度等信息。
306、根据所述属性信息分别计算各个所述目标文档的优先等级;
在得到属性信息后,根据属性信息分别计算各个所述目标文档的优先等级。具体的,可以为每个属性信息分别分配预设的权重和分值,然后按照预设的规则并利用各个属性信息的权重和分值进行计算,最终得到一个可用于表征优先等级的数值。比如,可以设置以下规则进行优先级数值的计算:设置文档主题的权重为30%,文档修改时间的权重为30%,文档重要程度的权重为40%,修改时间为1天内则分值为10,修改时间为1周内则分值为5,重要程度为低则分值为1,重要程度为高则分值为10,最后将对应的分值和权重相乘即可得到一个可用于表征优先等级的数值。
307、按照所述优先等级的先后顺序,在显示界面中依次展示各个所述目标文档的图标和名称,所述名称的颜色根据所述优先等级确定。
在确定优先等级后,按照优先等级的先后顺序对检索结果进行排序,在显示界面中依次展示各个所述目标文档的图标和名称。另外,各个所述目标文档的名称还可以根据文档优先等级的不同而采用不同的颜色展示。通过这样设置,可以更合理地安排检索结果的排序,便于用户快速定位重要程度较高的目标文档。
本发明实施例提出的文档搜索方法包括:获取输入的查询语句;检测所述查询语句中的特定文档关键词;根据所述特定文档关键词对所述查询语句进行分词,得到目标关键词;使用Lucene从预置的数据源中搜索与所述目标关键词对应的目标文档;分别获取各个所述目标文档的属性信息;根据所述属性信息分别计算各个所述目标文档的优先等级;按照所述优先等级的先后顺序,在显示界面中依次展示各个所述目标文档的图标和名称,所述名称的颜色根据所述优先等级确定。与本发明的第一个实施例相比,本实施例将检索结果按照优先等级的先后顺序排列,能够方便用户快速定位重要程度较高的文档。
请参阅图4,本发明实施例中一种基于Lucene的文档搜索方法的第四个实施例包括:
401、获取输入的查询语句;
402、对所述查询语句进行识别,得到目标关键词;
403、使用Lucene从预置的数据源中搜索与所述目标关键词对应的目标文档;
步骤401至403与步骤101至103相同,具体可参照步骤101至103的相关说明。
404、获取当前登录的用户账户的身份信息;
在检索得到各个目标文档后,获取当前登录的用户账户的身份信息。身份信息对应于各个用户账户,用于表示各个用户账户的身份。比如对于企业应用来说,可以包括董事长、总经理、主管、组长和普通员工等身份信息。
405、从预设的敏感词汇表中查询所述身份信息对应的敏感词汇;
在获取当前登录的用户账户的身份信息之后,从预设的敏感词汇表中查询所述身份信息对应的敏感词汇。该敏感词汇表记录着各个身份信息分别对应的敏感词汇,具体的,可以设置一个敏感词汇表记录所有身份信息的敏感词汇,也可以为每个身份信息单独设置一个对应的敏感词汇表。
406、在显示界面中展示文档名称不包含所述敏感词汇的目标文档。
在确定得到该用户账户的身份信息对应的敏感词汇之后,在显示界面中展示文档名称不包含所述敏感词汇的目标文档。通过这样设置,可以将包含敏感词汇主题的文档进行屏蔽,从而使得用户无法搜索到具有敏感主题的文档,防止私密信息的泄露。
本发明实施例提出的文档搜索方法包括:获取输入的查询语句;对所述查询语句进行识别,得到目标关键词;使用Lucene从预置的数据源中搜索与所述目标关键词对应的目标文档;获取当前登录的用户账户的身份信息;从预设的敏感词汇表中查询所述身份信息对应的敏感词汇;在所述显示界面中展示文档名称不包含所述敏感词汇的目标文档。与本发明的第一个实施例相比,本实施例对文档名称包含敏感词汇的文档进行了过滤,能够防止用户私密信息的泄露。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
上面主要描述了一种基于Lucene的文档搜索方法,下面将对一种基于Lucene的文档搜索装置进行详细描述。
请参阅图5,本发明实施例中一种基于Lucene的文档搜索装置的一个实施例包括:
查询语句获取模块501,用于获取输入的查询语句;
语句识别模块502,用于对所述查询语句进行识别,得到目标关键词;
搜索模块503,用于使用Lucene从预置的数据源中搜索与所述目标关键词对应的目标文档;
结果展示模块504,用于在预置的显示界面中展示所述目标文档;
数据源配置模块505,用于在数据库中创建各个源配置表,所述源配置表包含对应的数据源信息,每个所述源配置表对应于一个数据源;
索引构建模块506,用于分别为各个所述源配置表所对应的数据源中的各个文档建立索引,并将得到的索引存放在Lucene的索引库中;
界面配置模块507,用于在所述数据库中创建界面配置表,所述界面配置表包含所述显示界面的配置信息,所述配置信息决定所述显示界面的展示效果。
进一步的,所述基于Lucene的文档搜索装置还可以包括:
定时任务建立模块,用于在所述数据库中创建定时任务表,建立定时任务;
新增文档索引构建模块,用于利用所述定时任务定期为所述数据源中的新增文档建立索引。
进一步的,所述数据源中的每个文档包含对应的加密等级,所述结果展示模块504可以包括:
用户权限获取单元,用于获取当前登录的用户账户的权限等级;
权限确定单元,用于根据预设的权限对照表确定所述权限等级能够查看的文档的加密等级范围区间;
第一文档展示单元,用于在所述显示界面中展示加密等级落入所述加密等级范围区间的目标文档。
更进一步的,所述结果展示模块504还可以包括:
架构图获取单元,用于获取上传的组织架构图;
架构图解析单元,用于对所述组织架构图进行解析,得到层级关系链;
用户权限分配单元,用于根据所述层级关系链依次为各个用户账户分配对应的权限等级。
更进一步的,所述结果展示模块504还可以包括:
加密关键词获取单元,用于获取文档的名称中包含的加密关键词;
第一文档加密单元,用于根据所述加密关键词设置所述文档的加密等级;
身份信息获取单元,用于获取文档创建者的身份信息;
第二文档加密单元,用于根据所述身份信息设置所述文档的加密等级;
创建时间获取单元,用于获取文档的创建时间;
第三文档加密单元,用于根据所述创建时间设置所述文档的加密等级;
加密因素获取单元,用于获取文档的加密因素,所述加密因素包括文档的名称中包含的加密关键词、文档创建者的身份信息和文档的创建时间;
第四文档加密单元,用于根据所述加密因素设置所述文档的加密等级。
进一步的,所述结果展示模块504可以包括:
文档属性获取单元,用于分别获取各个所述目标文档的属性信息;
优先级计算单元,用于根据所述属性信息分别计算各个所述目标文档的优先等级;
第二文档展示单元,用于按照所述优先等级的先后顺序,在所述显示界面中依次展示各个所述目标文档的图标和名称,所述名称的颜色根据所述优先等级确定。
进一步的,所述结果展示模块504可以包括:
用户身份获取单元,用于获取当前登录的用户账户的身份信息;
敏感词汇查询单元,用于从预设的敏感词汇表中查询所述身份信息对应的敏感词汇;
第三文档展示单元,用于在所述显示界面中展示文档名称不包含所述敏感词汇的目标文档。
进一步的,所述语句识别模块502可以包括:
特定文档关键词检测单元,用于检测所述查询语句中的特定文档关键词;
分词单元,用于根据所述特定文档关键词对所述查询语句进行分词,得到所述目标关键词。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如图1至图4表示的任意一种基于Lucene的文档搜索方法的步骤。
本发明实施例还提供一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如图1至图4表示的任意一种基于Lucene的文档搜索方法的步骤。
图6是本发明一实施例提供的服务器的示意图。如图6所示,该实施例的服务器6包括:处理器60、存储器61以及存储在所述存储器61中并可在所述处理器60上运行的计算机可读指令62。所述处理器60执行所述计算机可读指令62时实现上述各个基于Lucene的文档搜索方法实施例中的步骤,例如图1所示的步骤101至104。或者,所述处理器60执行所述计算机可读指令62时实现上述各装置实施例中各模块/单元的功能,例如图5所示模块501至507的功能。
示例性的,所述计算机可读指令62可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器61中,并由所述处理器60执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机可读指令62在所述服务器6中的执行过程。
所述服务器6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述服务器6可包括,但不仅限于,处理器60、存储器61。本领域技术人员可以理解,图6仅仅是服务器6的示例,并不构成对服务器6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述服务器6还可以包括输入输出设备、网络接入设备、总线等。
所述处理器60可以是中央处理单元(CentraL Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(DigitaL SignaL Processor,DSP)、专用集成电路(AppLication Specific Integrated Circuit,ASIC)、现成可编程门阵列(FieLd-ProgrammabLe Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器61可以是所述服务器6的内部存储单元,例如服务器6的硬盘或内存。所述存储器61也可以是所述服务器6的外部存储设备,例如所述服务器6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure DigitaL,SD)卡,闪存卡(FLash Card)等。进一步地,所述存储器61还可以既包括所述服务器6的内部存储单元也包括外部存储设备。所述存储器61用于存储所述计算机可读指令以及所述服务器所需的其他程序和数据。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnLyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于Lucene的文档搜索方法,其特征在于,包括:
获取输入的查询语句;
对所述查询语句进行识别,得到目标关键词;
使用Lucene从预置的数据源中搜索与所述目标关键词对应的目标文档;
在预置的显示界面中展示所述目标文档;
其中,所述数据源通过以下步骤设置:
在数据库中创建各个源配置表,所述源配置表包含对应的数据源信息,每个所述源配置表对应于一个数据源;
分别为各个所述源配置表所对应的数据源中的各个文档建立索引,并将得到的索引存放在Lucene的索引库中;
所述显示界面通过以下步骤设置:
在所述数据库中创建界面配置表,所述界面配置表包含所述显示界面的配置信息,所述配置信息决定所述显示界面的展示效果。
2.根据权利要求1所述的基于Lucene的文档搜索方法,其特征在于,还包括:
在所述数据库中创建定时任务表,建立定时任务;
利用所述定时任务定期为所述数据源中的新增文档建立索引。
3.根据权利要求1所述的基于Lucene的文档搜索方法,其特征在于,所述数据源中的每个文档包含对应的加密等级,所述在预置的显示界面中展示所述目标文档包括:
获取当前登录的用户账户的权限等级;
根据预设的权限对照表确定所述权限等级能够查看的文档的加密等级范围区间;
在所述显示界面中展示加密等级落入所述加密等级范围区间的目标文档。
4.根据权利要求3所述的基于Lucene的文档搜索方法,其特征在于,各个用户账户的权限等级通过以下步骤预先设置:
获取上传的组织架构图;
对所述组织架构图进行解析,得到层级关系链;
根据所述层级关系链依次为各个用户账户分配对应的权限等级。
5.根据权利要求3所述的基于Lucene的文档搜索方法,其特征在于,所述数据源中的文档对应的加密等级通过以下步骤预先设置:
获取文档的名称中包含的加密关键词;
根据所述加密关键词设置所述文档的加密等级;
或者
获取文档创建者的身份信息;
根据所述身份信息设置所述文档的加密等级;
或者
获取文档的创建时间;
根据所述创建时间设置所述文档的加密等级;
或者
获取文档的加密因素,所述加密因素包括文档的名称中包含的加密关键词、文档创建者的身份信息和文档的创建时间;
根据所述加密因素设置所述文档的加密等级。
6.根据权利要求1所述的基于Lucene的文档搜索方法,其特征在于,所述在预置的显示界面中展示所述目标文档包括:
分别获取各个所述目标文档的属性信息;
根据所述属性信息分别计算各个所述目标文档的优先等级;
按照所述优先等级的先后顺序,在所述显示界面中依次展示各个所述目标文档的图标和名称,所述名称的颜色根据所述优先等级确定。
7.根据权利要求1所述的基于Lucene的文档搜索方法,其特征在于,所述在预置的显示界面中展示所述目标文档包括:
获取当前登录的用户账户的身份信息;
从预设的敏感词汇表中查询所述身份信息对应的敏感词汇;
在所述显示界面中展示文档名称不包含所述敏感词汇的目标文档。
8.根据权利要求1至7中任一项所述的基于Lucene的文档搜索方法,其特征在于,所述对所述查询语句进行识别,得到目标关键词包括:
检测所述查询语句中的特定文档关键词;
根据所述特定文档关键词对所述查询语句进行分词,得到所述目标关键词。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如权利要求1至8中任一项所述的基于Lucene的文档搜索方法的步骤。
10.一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如下步骤:
获取输入的查询语句;
对所述查询语句进行识别,得到目标关键词;
使用Lucene从预置的数据源中搜索与所述目标关键词对应的目标文档;
在预置的显示界面中展示所述目标文档;
其中,所述数据源通过以下步骤设置:
在数据库中创建各个源配置表,所述源配置表包含对应的数据源信息,每个所述源配置表对应于一个数据源;
分别为各个所述源配置表所对应的数据源中的各个文档建立索引,并将得到的索引存放在Lucene的索引库中;
所述显示界面通过以下步骤设置:
在所述数据库中创建界面配置表,所述界面配置表包含所述显示界面的配置信息,所述配置信息决定所述显示界面的展示效果。
CN201810121900.XA 2018-02-07 2018-02-07 一种基于Lucene的文档搜索方法、存储介质和服务器 Pending CN108363768A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810121900.XA CN108363768A (zh) 2018-02-07 2018-02-07 一种基于Lucene的文档搜索方法、存储介质和服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810121900.XA CN108363768A (zh) 2018-02-07 2018-02-07 一种基于Lucene的文档搜索方法、存储介质和服务器

Publications (1)

Publication Number Publication Date
CN108363768A true CN108363768A (zh) 2018-08-03

Family

ID=63004968

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810121900.XA Pending CN108363768A (zh) 2018-02-07 2018-02-07 一种基于Lucene的文档搜索方法、存储介质和服务器

Country Status (1)

Country Link
CN (1) CN108363768A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109857752A (zh) * 2019-01-25 2019-06-07 北京炎黄新星网络科技有限公司 一种索引库更新方法及装置
CN109885654A (zh) * 2019-02-01 2019-06-14 天津字节跳动科技有限公司 在线文档修改处理方法和装置
CN110362732A (zh) * 2019-07-18 2019-10-22 江苏中威科技软件系统有限公司 一种信息系统内容搜索的方法
CN110704494A (zh) * 2019-08-13 2020-01-17 珠海格力电器股份有限公司 一种数据分析方法、装置、终端及存储介质
CN111949697A (zh) * 2020-07-09 2020-11-17 厦门美柚股份有限公司 基于搜索引擎的数据处理方法、装置、终端及介质
CN113378022A (zh) * 2020-03-10 2021-09-10 北京搜狗科技发展有限公司 一种站内搜索平台、搜索方法和相关装置
CN113517047A (zh) * 2021-06-08 2021-10-19 联仁健康医疗大数据科技股份有限公司 医学数据的获取方法、装置、电子设备及存储介质
CN115168684A (zh) * 2022-09-05 2022-10-11 南昌工程学院 一种财务档案管理方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101154241A (zh) * 2007-10-11 2008-04-02 北京金山软件有限公司 一种数据检索方法及一种数据检索系统
CN101408876A (zh) * 2007-10-09 2009-04-15 中兴通讯股份有限公司 一种电子文档全文检索的方法及系统
CN103412933A (zh) * 2013-08-20 2013-11-27 南京物联网应用研究院有限公司 一种云搜索平台
CN105045852A (zh) * 2015-07-06 2015-11-11 华东师范大学 一种教学资源的全文搜索引擎系统
CN106354721A (zh) * 2015-07-14 2017-01-25 杭州海康威视系统技术有限公司 基于权限的检索方法和装置
CN106909647A (zh) * 2017-02-21 2017-06-30 福建榕基软件股份有限公司 一种数据检索方法及装置
CN107346325A (zh) * 2016-05-04 2017-11-14 中国石油集团长城钻探工程有限公司 信息查询方法及装置
CN107609154A (zh) * 2017-09-23 2018-01-19 浪潮软件集团有限公司 一种多源异构数据的处理方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408876A (zh) * 2007-10-09 2009-04-15 中兴通讯股份有限公司 一种电子文档全文检索的方法及系统
CN101154241A (zh) * 2007-10-11 2008-04-02 北京金山软件有限公司 一种数据检索方法及一种数据检索系统
CN103412933A (zh) * 2013-08-20 2013-11-27 南京物联网应用研究院有限公司 一种云搜索平台
CN105045852A (zh) * 2015-07-06 2015-11-11 华东师范大学 一种教学资源的全文搜索引擎系统
CN106354721A (zh) * 2015-07-14 2017-01-25 杭州海康威视系统技术有限公司 基于权限的检索方法和装置
CN107346325A (zh) * 2016-05-04 2017-11-14 中国石油集团长城钻探工程有限公司 信息查询方法及装置
CN106909647A (zh) * 2017-02-21 2017-06-30 福建榕基软件股份有限公司 一种数据检索方法及装置
CN107609154A (zh) * 2017-09-23 2018-01-19 浪潮软件集团有限公司 一种多源异构数据的处理方法及装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109857752A (zh) * 2019-01-25 2019-06-07 北京炎黄新星网络科技有限公司 一种索引库更新方法及装置
CN109885654A (zh) * 2019-02-01 2019-06-14 天津字节跳动科技有限公司 在线文档修改处理方法和装置
CN110362732A (zh) * 2019-07-18 2019-10-22 江苏中威科技软件系统有限公司 一种信息系统内容搜索的方法
CN110704494A (zh) * 2019-08-13 2020-01-17 珠海格力电器股份有限公司 一种数据分析方法、装置、终端及存储介质
CN113378022A (zh) * 2020-03-10 2021-09-10 北京搜狗科技发展有限公司 一种站内搜索平台、搜索方法和相关装置
CN111949697A (zh) * 2020-07-09 2020-11-17 厦门美柚股份有限公司 基于搜索引擎的数据处理方法、装置、终端及介质
CN111949697B (zh) * 2020-07-09 2022-08-16 厦门美柚股份有限公司 基于搜索引擎的数据处理方法、装置、终端及介质
CN113517047A (zh) * 2021-06-08 2021-10-19 联仁健康医疗大数据科技股份有限公司 医学数据的获取方法、装置、电子设备及存储介质
CN115168684A (zh) * 2022-09-05 2022-10-11 南昌工程学院 一种财务档案管理方法及系统

Similar Documents

Publication Publication Date Title
CN108363768A (zh) 一种基于Lucene的文档搜索方法、存储介质和服务器
Cobo et al. SciMAT: A new science mapping analysis software tool
US8904555B2 (en) Computer implemented system for facilitating configuration, data tracking and reporting for data centric applications
US20190018904A1 (en) Method and system for identifying and discovering relationships between disparate datasets from multiple sources
US8644646B2 (en) Automatic identification of digital content related to a block of text, such as a blog entry
Conley et al. Sustaining privacy and open justice in the transition to online court records: A multidisciplinary inquiry
US9224007B2 (en) Search engine with privacy protection
Inmon et al. Tapping into unstructured data: Integrating unstructured data and textual analytics into business intelligence
Bifulco et al. An intelligent system for focused crawling from Big Data sources
Silvello et al. Semantic representation and enrichment of information retrieval experimental data
Clarke Breaking records: The history of bibliographic records and their influence in conceptualizing bibliographic data
Naxera et al. ‘I will handle it personally’: The neo-patrimonial rhetoric of the Czech Prime Minister in the times of COVID-19
Thuraisingham et al. Big data analytics with applications in insider threat detection
Wang et al. A survey on personal data cloud
CN112132238A (zh) 一种识别隐私数据的方法、装置、设备和可读介质
EP2506162A1 (en) Finding a data item of a plurality of data items stored in a digital data storage
Cinnamon On data cultures and the prehistories of smart urbanism in “Africa’s Digital City”
Macauley* et al. Using digital data and bibliometric analysis for researching doctoral education
Glassman Facebook is creating records—but who is managing them?
Esteva et al. Data mining for “big archives” analysis: A case study
TW200807346A (en) Knowledge framework system and method for integrating a knowledge management system with an e-learning system
Nunan et al. Exploring reidentification risk: is anonymisation a promise we can keep?
Oliychenko et al. Implementation and improvement of electronic document management in the government administration
Timonin et al. Research of filtration methods for reference social profile data
Burton Blogs as Infrastructure for Scholarly Communication.

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180803

RJ01 Rejection of invention patent application after publication