发明内容
本发明要解决的技术问题是提供一种电子文档全文检索的系统和方法,便于用户快速检索不同类型的电子文档提供的信息,得到准确的或者是全面的搜索文档搜索结果,使得用户可迅速定位所需要的文件信息。
为了解决上述问题,本发明提供了一种电子文档全文检索的方法,包括以下步骤:
(1)根据用户配置的数据源、索引创建与更新的策略,对该数据源的文档属性信息以及与其对应的文本内容信息进行信息抽取,并为其中每个词分别建立索引,构建与该数据源对应的全文检索索引库;
(2)接收用户输入的查询内容,并根据其确定查询条件,在所述全文检索索引库中对该索引文件进行查找,得到匹配的文档属性信息以及对应的文本内容信息;
(3)提取该文本内容信息中与用户搜索相关的摘要信息,并将该摘要信息与对应的文档属性信息一同返回给用户;
进一步的,本发明所述的方法,其中,步骤(1)中,所述用户配置的数据源,为一个或者多个电子文档库;
进一步的,本发明所述的方法,其中,步骤(1)中,在所述数据源更新同时,自动同步更新所述全文检索索引库内的信息,包括以下步骤:
(i)定时扫描电子文档库的文档属性信息与文本内容信息;
(ii)提取所述文档的当前信息,并与全文检索索引库中电子文档的历史信息进行对比;
(iii)将有更新操作的文档,在全文检索索引库中同步进行更新操作;
进一步的,本发明所述的方法,其中,步骤(2)中,进一步包括以下步骤:
(2a)接收用户输入的查询内容,根据关键词提取策略对用户提供的查询内容进行关键词提取;
(2b)根据提取出的关键词所形成的查询条件,在所述全文检索索引库中对该索引文件进行查找,得到匹配的文档属性信息与对应的文本内容信息;
进一步的,本发明所述的方法,其中,所述查询内容,包括以下内容之一或多个的组合:文档内容、文档摘要、文档标题、文档创建时间、文档更新时间、文档作者、文档类型、文档大小以及文档路径;
进一步的,本发明所述的方法,其中,所述文档属性信息,包括:文档标题、文档创建时间、文档更新时间、文档作者、文档类型、文档大小以及文档路径;所述文本内容信息,包括:文档内容、与文档摘要;
本发明所述的方法,其中,步骤(3)中,进一步包括:
当用户输入的查询内容未包括文档内容时,提取该文本内容信息中的文档摘要作为摘要信息,与对应的文档属性信息一同返回给用户;
当用户输入的查询内容包括文档内容时,根据关键词对文本内容信息中的文档内容进行检索,提取其中命中关键字的文档内容片段作为摘要信息,与对应的文档属性信息一同返回给用户;
为了解决上述问题,本发明还提供了一种电子文档全文搜索系统,包括:
索引模块,根据用户配置的数据源、索引更新与重建的策略对全文索引进行维护,抽取该数据源中文档属性信息以及与其对应的文本内容信息,并为其中的每个词分别创建索引信息,构建与该数据源对应的全文检索索引库;
查询入口模块,用于接收用户输入的查询内容,并将其发送给查询模块进行处理,还用于调用查询模块在文本内容信息中提取摘要信息,并将查询模块返回的摘要信息与对应的文档属性信息一起反馈给用户;
查询模块,用于根据输入的查询内容确定查询条件,在所述全文检索索引库中对索引文件进行查询,经查询入口模块调用,在查询到的文本内容信息中提取摘要信息,并将其与对应的文档属性信息一起返回给查询入口模块;
进一步的,本发明所述的系统,其中,所述查询内容,包括以下内容之一或多个的组合:文档内容、文档摘要、文档标题、文档创建时间、文档更新时间、文档作者、文档类型、文档大小以及文档路径;所述文档属性信息,包括:文档标题、文档创建时间、文档更新时间、文档作者、文档类型、文档大小以及文档路径;所述文本内容信息,包括:文档内容、与文档摘要;
进一步的,本发明所述的系统,其中,所述查询模块,包括:
摘要生成模块,经查询入口模块调用,用于在查询到的文本内容信息中提取与用户搜索相关的摘要信息,并将其与对应的文档属性信息一起返回给查询入口模块;
关键词提取模块,用于接收查询入口模块发送来的查询内容,根据关键词提取策略,对用户输入的查询内容进行关键词提取,并将提取的关键词返回查询入口模块来向数据查询模块转发;
数据查询模块,用于接收由查询入口模块发送来的关键词信息,并根据关键词所形成的查询条件,在所述全文检索索引库中对索引文件进行查询,得到匹配用户查询要求的文档属性信息以及与其对应的文本内容信息;
进一步的,本发明所述的系统,其中,当用户输入的查询内容未包括文档内容时,所述摘要生成模块,提取该文本内容信息中的文档摘要作为摘要信息,与对应的文档属性信息一同返回给查询入口模块;
当用户输入的查询内容包括文档内容时,所述摘要生成模块,根据关键词对文本内容信息中的文档内容进行检索,提取其中命中关键字的文档内容片段作为摘要信息,与对应的文档属性信息一同返回给查询入口模块;
进一步的,本发明所述的系统,其中,所述查询入口模块,还用于将用户的查询内容发送给关键词提取模块进行处理;并接收从关键词提取模块返回的关键词信息,将该信息发送给数据查询模块进行查询;在数据查询模块得到匹配用户查询要求的文档属性信息以及与其对应的文本内容信息后,调用摘要生成模块在该文本内容信息中提取与用户搜索相关的摘要信息,与对应的文档属性信息一同返回给用户;
进一步的,本发明所述的系统,其中,所述索引模块,包括:
索引维护模块,根据用户配置的数据源、索引更新与重建的策略对全文索引进行维护,调用文档信息抽取模块对该数据源中的文档属性信息以及与其对应的文本内容信息进行信息抽取,并调用索引创建模块为其中的每个词分别创建索引信息,构建与该数据源对应的全文检索索引库;在用户配置的数据源更新的同时,自动同步更新所述全文检索索引库内的信息;
文本信息抽取模块,用于从不同格式的数据源中提取文档属性信息以及与其对应的文本内容信息;
索引创建模块,用于对所述文档属性信息以及与其对应的文本内容信息中的每个词分别建立索引,指明该词所在的文档及在文档中出现的次数和位置;
进一步的,本发明所述的系统,其中,所述用户配置的数据源,为一个或者多个电子文档库。
与现有技术相比,本发明所述系统和方法,具有如下主要有益效果:
1)用户可通过输入文件的名称、作者、修改日期等信息得到文档信息;
2)用户可通过输入文档相关内容得到文档信息;
3)用户可以通过输入完备的条件得到准确的文档结果,或者模糊的条件得到更多的文档结果;
4)用户得到搜索结果后,可以通过浏览文档的摘要信息,快速掌握文档相关内容;
5)用户配置文档库信息后,文档库中的变动的信息自动同步到索引库。用户搜索的文档信息均为最新的文档信息。
具体实施方式
本发明为了解决传统技术方案存在的弊端,通过以下具体实施例进一步阐述本发明所述的一种电子文档全文检索的方法及系统,以下对具体实施方式进行详细描述,但不作为对本发明的限定。
本发明的系统和方法,可以自动形成与一个或者多个电子文档库(数据源)对应的全文检索索引库。在用户进行查询时,可对用户的输入进行分析,自动提取用户输入的关键词汇,并利用这些关键词在该系统的索引库中进行搜索,返回符合用户要求的文档搜索结果。用户的搜索条件,可包括文档标题、文档内容、文档摘要、文档更新时间、文档作者等。搜索结果中可包括文档标题,文档更新时间,文档类型,文档大小,文档内容,文档摘要,文档路径等文档信息。
图1与图2分别为两种电子文档全文搜索系统。我们以图1为例,进行具体描述。
如图1所示,是本发明实施例的电子文档全文搜索系统的框图,该系统包括:查询入口模块10,以及索引模块30和查询模块20;
其中,查询模块20,又包括:
摘要生成模块201,经查询入口模块10调用,用于在查询到的文本内容信息中提取与用户搜索相关的摘要信息,并将其与对应的文档属性信息一起返回给查询入口模块;
当用户输入的查询内容未包括文档内容时,所述摘要生成模块201提取该文本内容信息中的文档摘要作为摘要信息;
当用户输入的查询内容包括文档内容时,所述摘要生成模块201根据关键词对文本内容信息中的文档内容进行检索,提取其中命中关键字的文档内容片段作为摘要信息;
关键词提取模块202,用于接收查询入口模块10发送来的查询内容,根据不同的关键词提取策略,对用户输入的查询内容进行关键词提取,并将提取的关键词返回给查询入口模块10来向数据查询模块203转发;如果将查询方式限定为输入关键词,也可以不设置该模块;
所述查询内容,包括以下内容之一或多个的组合:文档内容、文档摘要、文档标题、文档更新时间、文档创建时间、文档作者、文档类型、文档大小以及文档路径等等;
其关键词提取策略可采用机械分词法中的最大左匹配法的方式对用户输入内容进行分词操作,并将分词结果作为关键词;所述关键词查找方法也可以是其他的查找方法,如基于理解的分词法、基于统计的分词法等等;
数据查询模块203,用于接收由查询入口模块10发送来的关键词信息,并根据关键词所形成的查询条件,在全文检索索引库中对索引文件进行查询,得到匹配用户查询要求的文档属性信息以及与其对应的文本内容信息;所述文档属性信息,包括:文档标题、文档创建时间、文档更新时间、文档作者、文档类型、文档大小以及文档路径;所述文本内容信息,包括:文档内容、与文档摘要;
其中,索引模块30,又包括:
索引维护模块301,根据用户配置的数据源、索引更新与重建的策略对全文索引进行维护,调用文档信息抽取模块302对该数据源中的文档属性信息以及与其对应的文本内容信息进行信息抽取,并调用索引创建模块303创建索引信息,构建与该数据源对应的全文检索索引库;在用户配置的数据源更新的同时,自动同步更新所述全文检索索引库内的信息;
所述更新方法可以采取定时扫描电子文档库的信息,提取文档的当前信息,并与索引库中的电子文档的历史信息进行对比,对于有更新操作的文档在索引库中同步进行更新操作;
文本信息抽取模块302,用于从不同格式的数据源中提取文档属性信息以及与其对应的文本内容信息;
该数据源电子文档的类型包括但不限于文本文档、WORD文档、PPT文档、PDF文档、EXCEL文档、HTML文档等文档类型;
索引创建模块303,用于对所述文档属性信息以及与其对应的文本内容信息中的每一个词分别建立索引,指明该词所在的文档及在文档中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找;
其中,查询入口模块10,通过与外部网络的交互,接收用户输入的查询内容,并将其发送给关键词提取模块202进行处理;并接收从关键词提取模块202返回的关键词信息,将该信息发送给数据查询模块203进行查询;在数据查询模块得到匹配用户查询要求的文档属性信息以及与其对应的文本内容信息后,调用摘要生成模块201在该文本内容信息中提取与用户搜索相关的摘要信息,将摘要生成模块201返回的摘要信息与对应的文档属性信息一起反馈给用户;
外部网络,包括:IP网络、WAP网络等多种网络,通过HTTP、TCP/IP等协议接入电子文档全文搜索系统;
用户的查询条件可以包括:一个或者多个子条件,这些子条件可以使用逻辑连接符进行连接;文档的查询条件可以包括文档的名称、文档的创建时间、文档的修改时间、文档的内容、文档的大小、文档的类型、文档的内容等。
如图3所示,是图1和图2所示的搜索系统进行电子文档全文搜索的方法流程图,包括以下步骤:
S1,根据用户配置的数据源,索引创建与更新的策略,对该数据源中的文档属性信息以及与其对应的文本内容信息进行信息抽取,并为其中每个词分别建立索引,构建与该数据源对应的全文检索索引库;
S2,接收用户输入的查询内容;
S3,根据不同的关键词提取策略对用户提供的查询内容进行关键词提取;
S4,根据提取出的关键词所形成的查询条件,在所述全文检索索引库中对该索引文件进行查找,得到匹配的文档属性信息以及对应的文本内容信息;
S5,提取该文本内容信息中与用户搜索相关的摘要信息,并将该摘要信息与对应的文档属性信息一同返回给用户;
当用户输入的查询内容未包括文档内容时,提取该文本内容信息中的文档摘要作为摘要信息,与对应的文档属性信息一同返回给用户;
当用户输入的查询内容包括文档内容时,根据关键词对文本内容信息中的文档内容进行检索,提取其中命中关键字的文档内容片段作为摘要信息,与对应的文档属性信息一同返回给用户。
当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员可根据本发明做出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。