CN101408876A - 一种电子文档全文检索的方法及系统 - Google Patents

一种电子文档全文检索的方法及系统 Download PDF

Info

Publication number
CN101408876A
CN101408876A CNA2007101406883A CN200710140688A CN101408876A CN 101408876 A CN101408876 A CN 101408876A CN A2007101406883 A CNA2007101406883 A CN A2007101406883A CN 200710140688 A CN200710140688 A CN 200710140688A CN 101408876 A CN101408876 A CN 101408876A
Authority
CN
China
Prior art keywords
document
information
content
text
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2007101406883A
Other languages
English (en)
Other versions
CN101408876B (zh
Inventor
刘丽丽
李英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Jiangxi Electric Power Co Ltd
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN2007101406883A priority Critical patent/CN101408876B/zh
Publication of CN101408876A publication Critical patent/CN101408876A/zh
Application granted granted Critical
Publication of CN101408876B publication Critical patent/CN101408876B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种电子文档全文搜索系统及方法,其中,所述方法,包括以下步骤:(1)根据用户配置的数据源、索引创建与更新的策略,对该数据源的文本信息进行抽取,并为其中每个词分别建立索引,构建与该数据源对应的全文检索索引库;(2)接收用户输入的查询内容,并根据其确定查询条件,在所述全文检索索引库中对该索引文件进行查找,得到匹配的文档信息;(3)对所述匹配的文档信息进行调整,提取该文档信息中与用户搜索相关的摘要信息,并将其返回给用户。本发明所述的系统和方法,便于用户快速检索不同类型的电子文档提供的信息,得到准确的或者是全面的搜索文档搜索结果,使得用户可迅速定位所需要的文件信息。

Description

一种电子文档全文检索的方法及系统
技术领域
本发明涉及信息管理领域,具体涉及信息管理中的一种进行电子文档全文搜索的系统和方法。
背景技术
传统的信息管理的方式是采用以纸张为载体的信息分类管理,容量小,保存难。随着计算机产业的发展,以计算机存储设备为载体的电子文档随即出现,但是,现在多数企业仍然沿用传统的分类管理的方式来管理这些电子文档,这样就无法将这些信息有效的管理和利用,造成了信息巨大的浪费。同时,对于企业来说,往往会迷失在海量的信息中,无法快速找到自己需要的信息。
发明内容
本发明要解决的技术问题是提供一种电子文档全文检索的系统和方法,便于用户快速检索不同类型的电子文档提供的信息,得到准确的或者是全面的搜索文档搜索结果,使得用户可迅速定位所需要的文件信息。
为了解决上述问题,本发明提供了一种电子文档全文检索的方法,包括以下步骤:
(1)根据用户配置的数据源、索引创建与更新的策略,对该数据源的文档属性信息以及与其对应的文本内容信息进行信息抽取,并为其中每个词分别建立索引,构建与该数据源对应的全文检索索引库;
(2)接收用户输入的查询内容,并根据其确定查询条件,在所述全文检索索引库中对该索引文件进行查找,得到匹配的文档属性信息以及对应的文本内容信息;
(3)提取该文本内容信息中与用户搜索相关的摘要信息,并将该摘要信息与对应的文档属性信息一同返回给用户;
进一步的,本发明所述的方法,其中,步骤(1)中,所述用户配置的数据源,为一个或者多个电子文档库;
进一步的,本发明所述的方法,其中,步骤(1)中,在所述数据源更新同时,自动同步更新所述全文检索索引库内的信息,包括以下步骤:
(i)定时扫描电子文档库的文档属性信息与文本内容信息;
(ii)提取所述文档的当前信息,并与全文检索索引库中电子文档的历史信息进行对比;
(iii)将有更新操作的文档,在全文检索索引库中同步进行更新操作;
进一步的,本发明所述的方法,其中,步骤(2)中,进一步包括以下步骤:
(2a)接收用户输入的查询内容,根据关键词提取策略对用户提供的查询内容进行关键词提取;
(2b)根据提取出的关键词所形成的查询条件,在所述全文检索索引库中对该索引文件进行查找,得到匹配的文档属性信息与对应的文本内容信息;
进一步的,本发明所述的方法,其中,所述查询内容,包括以下内容之一或多个的组合:文档内容、文档摘要、文档标题、文档创建时间、文档更新时间、文档作者、文档类型、文档大小以及文档路径;
进一步的,本发明所述的方法,其中,所述文档属性信息,包括:文档标题、文档创建时间、文档更新时间、文档作者、文档类型、文档大小以及文档路径;所述文本内容信息,包括:文档内容、与文档摘要;
本发明所述的方法,其中,步骤(3)中,进一步包括:
当用户输入的查询内容未包括文档内容时,提取该文本内容信息中的文档摘要作为摘要信息,与对应的文档属性信息一同返回给用户;
当用户输入的查询内容包括文档内容时,根据关键词对文本内容信息中的文档内容进行检索,提取其中命中关键字的文档内容片段作为摘要信息,与对应的文档属性信息一同返回给用户;
为了解决上述问题,本发明还提供了一种电子文档全文搜索系统,包括:
索引模块,根据用户配置的数据源、索引更新与重建的策略对全文索引进行维护,抽取该数据源中文档属性信息以及与其对应的文本内容信息,并为其中的每个词分别创建索引信息,构建与该数据源对应的全文检索索引库;
查询入口模块,用于接收用户输入的查询内容,并将其发送给查询模块进行处理,还用于调用查询模块在文本内容信息中提取摘要信息,并将查询模块返回的摘要信息与对应的文档属性信息一起反馈给用户;
查询模块,用于根据输入的查询内容确定查询条件,在所述全文检索索引库中对索引文件进行查询,经查询入口模块调用,在查询到的文本内容信息中提取摘要信息,并将其与对应的文档属性信息一起返回给查询入口模块;
进一步的,本发明所述的系统,其中,所述查询内容,包括以下内容之一或多个的组合:文档内容、文档摘要、文档标题、文档创建时间、文档更新时间、文档作者、文档类型、文档大小以及文档路径;所述文档属性信息,包括:文档标题、文档创建时间、文档更新时间、文档作者、文档类型、文档大小以及文档路径;所述文本内容信息,包括:文档内容、与文档摘要;
进一步的,本发明所述的系统,其中,所述查询模块,包括:
摘要生成模块,经查询入口模块调用,用于在查询到的文本内容信息中提取与用户搜索相关的摘要信息,并将其与对应的文档属性信息一起返回给查询入口模块;
关键词提取模块,用于接收查询入口模块发送来的查询内容,根据关键词提取策略,对用户输入的查询内容进行关键词提取,并将提取的关键词返回查询入口模块来向数据查询模块转发;
数据查询模块,用于接收由查询入口模块发送来的关键词信息,并根据关键词所形成的查询条件,在所述全文检索索引库中对索引文件进行查询,得到匹配用户查询要求的文档属性信息以及与其对应的文本内容信息;
进一步的,本发明所述的系统,其中,当用户输入的查询内容未包括文档内容时,所述摘要生成模块,提取该文本内容信息中的文档摘要作为摘要信息,与对应的文档属性信息一同返回给查询入口模块;
当用户输入的查询内容包括文档内容时,所述摘要生成模块,根据关键词对文本内容信息中的文档内容进行检索,提取其中命中关键字的文档内容片段作为摘要信息,与对应的文档属性信息一同返回给查询入口模块;
进一步的,本发明所述的系统,其中,所述查询入口模块,还用于将用户的查询内容发送给关键词提取模块进行处理;并接收从关键词提取模块返回的关键词信息,将该信息发送给数据查询模块进行查询;在数据查询模块得到匹配用户查询要求的文档属性信息以及与其对应的文本内容信息后,调用摘要生成模块在该文本内容信息中提取与用户搜索相关的摘要信息,与对应的文档属性信息一同返回给用户;
进一步的,本发明所述的系统,其中,所述索引模块,包括:
索引维护模块,根据用户配置的数据源、索引更新与重建的策略对全文索引进行维护,调用文档信息抽取模块对该数据源中的文档属性信息以及与其对应的文本内容信息进行信息抽取,并调用索引创建模块为其中的每个词分别创建索引信息,构建与该数据源对应的全文检索索引库;在用户配置的数据源更新的同时,自动同步更新所述全文检索索引库内的信息;
文本信息抽取模块,用于从不同格式的数据源中提取文档属性信息以及与其对应的文本内容信息;
索引创建模块,用于对所述文档属性信息以及与其对应的文本内容信息中的每个词分别建立索引,指明该词所在的文档及在文档中出现的次数和位置;
进一步的,本发明所述的系统,其中,所述用户配置的数据源,为一个或者多个电子文档库。
与现有技术相比,本发明所述系统和方法,具有如下主要有益效果:
1)用户可通过输入文件的名称、作者、修改日期等信息得到文档信息;
2)用户可通过输入文档相关内容得到文档信息;
3)用户可以通过输入完备的条件得到准确的文档结果,或者模糊的条件得到更多的文档结果;
4)用户得到搜索结果后,可以通过浏览文档的摘要信息,快速掌握文档相关内容;
5)用户配置文档库信息后,文档库中的变动的信息自动同步到索引库。用户搜索的文档信息均为最新的文档信息。
附图说明
图1是本发明实施例的电子文档全文搜索系统的框图;
图2是本发明另一实施例的电子文档全文搜索系统的框图;
图3是图1和图2所示的搜索系统进行电子文档全文搜索的方法流程图。
具体实施方式
本发明为了解决传统技术方案存在的弊端,通过以下具体实施例进一步阐述本发明所述的一种电子文档全文检索的方法及系统,以下对具体实施方式进行详细描述,但不作为对本发明的限定。
本发明的系统和方法,可以自动形成与一个或者多个电子文档库(数据源)对应的全文检索索引库。在用户进行查询时,可对用户的输入进行分析,自动提取用户输入的关键词汇,并利用这些关键词在该系统的索引库中进行搜索,返回符合用户要求的文档搜索结果。用户的搜索条件,可包括文档标题、文档内容、文档摘要、文档更新时间、文档作者等。搜索结果中可包括文档标题,文档更新时间,文档类型,文档大小,文档内容,文档摘要,文档路径等文档信息。
图1与图2分别为两种电子文档全文搜索系统。我们以图1为例,进行具体描述。
如图1所示,是本发明实施例的电子文档全文搜索系统的框图,该系统包括:查询入口模块10,以及索引模块30和查询模块20;
其中,查询模块20,又包括:
摘要生成模块201,经查询入口模块10调用,用于在查询到的文本内容信息中提取与用户搜索相关的摘要信息,并将其与对应的文档属性信息一起返回给查询入口模块;
当用户输入的查询内容未包括文档内容时,所述摘要生成模块201提取该文本内容信息中的文档摘要作为摘要信息;
当用户输入的查询内容包括文档内容时,所述摘要生成模块201根据关键词对文本内容信息中的文档内容进行检索,提取其中命中关键字的文档内容片段作为摘要信息;
关键词提取模块202,用于接收查询入口模块10发送来的查询内容,根据不同的关键词提取策略,对用户输入的查询内容进行关键词提取,并将提取的关键词返回给查询入口模块10来向数据查询模块203转发;如果将查询方式限定为输入关键词,也可以不设置该模块;
所述查询内容,包括以下内容之一或多个的组合:文档内容、文档摘要、文档标题、文档更新时间、文档创建时间、文档作者、文档类型、文档大小以及文档路径等等;
其关键词提取策略可采用机械分词法中的最大左匹配法的方式对用户输入内容进行分词操作,并将分词结果作为关键词;所述关键词查找方法也可以是其他的查找方法,如基于理解的分词法、基于统计的分词法等等;
数据查询模块203,用于接收由查询入口模块10发送来的关键词信息,并根据关键词所形成的查询条件,在全文检索索引库中对索引文件进行查询,得到匹配用户查询要求的文档属性信息以及与其对应的文本内容信息;所述文档属性信息,包括:文档标题、文档创建时间、文档更新时间、文档作者、文档类型、文档大小以及文档路径;所述文本内容信息,包括:文档内容、与文档摘要;
其中,索引模块30,又包括:
索引维护模块301,根据用户配置的数据源、索引更新与重建的策略对全文索引进行维护,调用文档信息抽取模块302对该数据源中的文档属性信息以及与其对应的文本内容信息进行信息抽取,并调用索引创建模块303创建索引信息,构建与该数据源对应的全文检索索引库;在用户配置的数据源更新的同时,自动同步更新所述全文检索索引库内的信息;
所述更新方法可以采取定时扫描电子文档库的信息,提取文档的当前信息,并与索引库中的电子文档的历史信息进行对比,对于有更新操作的文档在索引库中同步进行更新操作;
文本信息抽取模块302,用于从不同格式的数据源中提取文档属性信息以及与其对应的文本内容信息;
该数据源电子文档的类型包括但不限于文本文档、WORD文档、PPT文档、PDF文档、EXCEL文档、HTML文档等文档类型;
索引创建模块303,用于对所述文档属性信息以及与其对应的文本内容信息中的每一个词分别建立索引,指明该词所在的文档及在文档中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找;
其中,查询入口模块10,通过与外部网络的交互,接收用户输入的查询内容,并将其发送给关键词提取模块202进行处理;并接收从关键词提取模块202返回的关键词信息,将该信息发送给数据查询模块203进行查询;在数据查询模块得到匹配用户查询要求的文档属性信息以及与其对应的文本内容信息后,调用摘要生成模块201在该文本内容信息中提取与用户搜索相关的摘要信息,将摘要生成模块201返回的摘要信息与对应的文档属性信息一起反馈给用户;
外部网络,包括:IP网络、WAP网络等多种网络,通过HTTP、TCP/IP等协议接入电子文档全文搜索系统;
用户的查询条件可以包括:一个或者多个子条件,这些子条件可以使用逻辑连接符进行连接;文档的查询条件可以包括文档的名称、文档的创建时间、文档的修改时间、文档的内容、文档的大小、文档的类型、文档的内容等。
如图3所示,是图1和图2所示的搜索系统进行电子文档全文搜索的方法流程图,包括以下步骤:
S1,根据用户配置的数据源,索引创建与更新的策略,对该数据源中的文档属性信息以及与其对应的文本内容信息进行信息抽取,并为其中每个词分别建立索引,构建与该数据源对应的全文检索索引库;
S2,接收用户输入的查询内容;
S3,根据不同的关键词提取策略对用户提供的查询内容进行关键词提取;
S4,根据提取出的关键词所形成的查询条件,在所述全文检索索引库中对该索引文件进行查找,得到匹配的文档属性信息以及对应的文本内容信息;
S5,提取该文本内容信息中与用户搜索相关的摘要信息,并将该摘要信息与对应的文档属性信息一同返回给用户;
当用户输入的查询内容未包括文档内容时,提取该文本内容信息中的文档摘要作为摘要信息,与对应的文档属性信息一同返回给用户;
当用户输入的查询内容包括文档内容时,根据关键词对文本内容信息中的文档内容进行检索,提取其中命中关键字的文档内容片段作为摘要信息,与对应的文档属性信息一同返回给用户。
当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员可根据本发明做出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (14)

1、一种电子文档全文检索的方法,其特征在于,包括以下步骤:
(1)根据用户配置的数据源、索引创建与更新的策略,对该数据源的文档属性信息以及与其对应的文本内容信息进行抽取,并为其中每个词分别建立索引,构建与该数据源对应的全文检索索引库;
(2)接收用户输入的查询内容,并根据其确定查询条件,在所述全文检索索引库中对该索引文件进行查找,得到匹配的文档属性信息以及对应的文本内容信息;
(3)提取该文本内容信息中与用户搜索相关的摘要信息,并将该摘要信息与对应的文档属性信息一同返回给用户。
2、如权利要求1所述的方法,其特征在于,步骤(1)中,所述用户配置的数据源,为一个或者多个电子文档库。
3、如权利要求1所述的方法,其特征在于,步骤(1)中,在所述数据源更新同时,自动同步更新所述全文检索索引库内的信息,包括以下步骤:
(i)定时扫描电子文档库的文档属性信息与文本内容信息;
(ii)提取所述文档的当前信息,并与全文检索索引库中电子文档的历史信息进行对比;
(iii)将有更新操作的文档,在全文检索索引库中同步进行更新操作。
4、如权利要求1所述的方法,其特征在于,步骤(2)中,进一步包括以下步骤:
(2a)接收用户输入的查询内容,根据关键词提取策略对用户提供的查询内容进行关键词提取;
(2b)根据提取出的关键词所形成的查询条件,在所述全文检索索引库中对该索引文件进行查找,得到匹配的文档属性信息与对应的文本内容信息。
5、如权利要求1或4所述的方法,其特征在于,所述查询内容,包括以下内容之一或多个的组合:文档内容、文档摘要、文档标题、文档创建时间、文档更新时间、文档作者、文档类型、文档大小以及文档路径。
6、如权利要求1或3或4所述的方法,其特征在于,所述文档属性信息,包括:文档标题、文档创建时间、文档更新时间、文档作者、文档类型、文档大小以及文档路径;
所述文本内容信息,包括:文档内容、与文档摘要。
7、如权利要求5或6所述的方法,其特征在于,步骤(3)中,进一步包括:
当用户输入的查询内容未包括文档内容时,提取该文本内容信息中的文档摘要作为摘要信息,与对应的文档属性信息一同返回给用户;
当用户输入的查询内容包括文档内容时,根据关键词对文本内容信息中的文档内容进行检索,提取其中命中关键字的文档内容片段作为摘要信息,与对应的文档属性信息一同返回给用户。
8、一种电子文档全文搜索系统,其特征在于,包括:
索引模块,根据用户配置的数据源、索引更新与重建的策略对全文索引进行维护,抽取该数据源中文档属性信息以及与其对应的文本内容信息,并为其中的每个词分别创建索引信息,构建与该数据源对应的全文检索索引库;
查询入口模块,用于接收用户输入的查询内容,并将其发送给查询模块进行处理,还用于调用查询模块在文本内容信息中提取摘要信息,并将查询模块返回的摘要信息与对应的文档属性信息一起反馈给用户;
查询模块,用于根据输入的查询内容确定查询条件,在所述全文检索索引库中对索引文件进行查询,经查询入口模块调用,在查询到的文本内容信息中提取摘要信息,并将其与对应的文档属性信息一起返回给查询入口模块。
9、如权利要求8所述的系统,其特征在于,所述查询内容,包括以下内容之一或多个的组合:文档内容、文档摘要、文档标题、文档创建时间、文档更新时间、文档作者、文档类型、文档大小以及文档路径;
所述文档属性信息,包括:文档标题、文档创建时间、文档更新时间、文档作者、文档类型、文档大小以及文档路径;
所述文本内容信息,包括:文档内容、与文档摘要。
10、如权利要求9所述的系统,其特征在于,所述查询模块,包括:
摘要生成模块,经查询入口模块调用,用于在查询到的文本内容信息中提取与用户搜索相关的摘要信息,并将其与对应的文档属性信息一起返回给查询入口模块;
关键词提取模块,用于接收查询入口模块发送来的查询内容,根据关键词提取策略,对用户输入的查询内容进行关键词提取,并将提取的关键词返回查询入口模块来向数据查询模块转发;
数据查询模块,用于接收由查询入口模块发送来的关键词信息,并根据关键词所形成的查询条件,在所述全文检索索引库中对索引文件进行查询,得到匹配用户查询要求的文档属性信息以及与其对应的文本内容信息。
11、如权利要求10所述的系统,其特征在于,当用户输入的查询内容未包括文档内容时,所述摘要生成模块,提取该文本内容信息中的文档摘要作为摘要信息,与对应的文档属性信息一同返回给查询入口模块;
当用户输入的查询内容包括文档内容时,所述摘要生成模块,根据关键词对文本内容信息中的文档内容进行检索,提取其中命中关键字的文档内容片段作为摘要信息,与对应的文档属性信息一同返回给查询入口模块。
12、如权利要求10所述的系统,其特征在于,所述查询入口模块,还用于将用户的查询内容发送给关键词提取模块进行处理;并接收从关键词提取模块返回的关键词信息,将该信息发送给数据查询模块进行查询;在数据查询模块得到匹配用户查询要求的文档属性信息以及与其对应的文本内容信息后,调用摘要生成模块在该文本内容信息中提取与用户搜索相关的摘要信息,与对应的文档属性信息一同返回给用户。
13、如权利要求8所述的系统,其特征在于,所述索引模块,包括:
索引维护模块,根据用户配置的数据源、索引更新与重建的策略对全文索引进行维护,调用文档信息抽取模块对该数据源中的文档属性信息以及与其对应的文本内容信息进行信息抽取,并调用索引创建模块为其中的每个词分别创建索引信息,构建与该数据源对应的全文检索索引库;在用户配置的数据源更新的同时,自动同步更新所述全文检索索引库内的信息;
文本信息抽取模块,用于从不同格式的数据源中提取文档属性信息以及与其对应的文本内容信息;
索引创建模块,用于对所述文档属性信息以及与其对应的文本内容信息中的每个词分别建立索引,指明该词所在的文档及在文档中出现的次数和位置。
14、如权利要求8或13所述的系统,其特征在于,所述用户配置的数据源,为一个或者多个电子文档库。
CN2007101406883A 2007-10-09 2007-10-09 一种电子文档全文检索的方法及系统 Expired - Fee Related CN101408876B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2007101406883A CN101408876B (zh) 2007-10-09 2007-10-09 一种电子文档全文检索的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007101406883A CN101408876B (zh) 2007-10-09 2007-10-09 一种电子文档全文检索的方法及系统

Publications (2)

Publication Number Publication Date
CN101408876A true CN101408876A (zh) 2009-04-15
CN101408876B CN101408876B (zh) 2011-03-16

Family

ID=40571890

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007101406883A Expired - Fee Related CN101408876B (zh) 2007-10-09 2007-10-09 一种电子文档全文检索的方法及系统

Country Status (1)

Country Link
CN (1) CN101408876B (zh)

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102004800A (zh) * 2010-12-28 2011-04-06 北京数码大方科技有限公司 Pdm系统中数据的查询方法及装置
CN102262640A (zh) * 2010-05-31 2011-11-30 中国移动通信集团贵州有限公司 一种全文检索文档数据库的方法及装置
CN102663029A (zh) * 2012-03-25 2012-09-12 戴建凤 一种建筑工程电子图纸搜索装置
CN102819612A (zh) * 2012-08-29 2012-12-12 北京鼎盾信息科技有限公司 一种基于打印文档的全文检索方法
CN103034646A (zh) * 2011-09-30 2013-04-10 北大方正集团有限公司 Pdf样例文件的检索方法和装置
CN103186622A (zh) * 2011-12-30 2013-07-03 北大方正集团有限公司 一种全文检索系统中索引信息的更新方法以及装置
CN103795795A (zh) * 2014-01-24 2014-05-14 上海爱数软件有限公司 一种自动发现文档的共享方法及共享系统
CN103823902A (zh) * 2014-03-18 2014-05-28 南京新模式软件集成有限公司 一种电子文件安全检索的方法
CN104239570A (zh) * 2014-09-30 2014-12-24 百度在线网络技术(北京)有限公司 论文的搜索方法及装置
CN105022794A (zh) * 2015-06-26 2015-11-04 广州时韵信息科技有限公司 一种快速搜索所需文章内容的方法及装置
CN105069175A (zh) * 2015-09-18 2015-11-18 北京恒华伟业科技股份有限公司 一种基于版本控制系统的信息检索方法及服务器
CN105205149A (zh) * 2015-09-22 2015-12-30 镇江锐捷信息科技有限公司 一种基于云的信息化系统全文索引方法
CN105608227A (zh) * 2016-01-26 2016-05-25 唐山新质点科技有限公司 文档数据检索方法及装置
CN106021404A (zh) * 2016-05-12 2016-10-12 北京北大英华科技有限公司 检索方法
WO2016169152A1 (zh) * 2015-04-20 2016-10-27 中兴通讯股份有限公司 文件加速方法和装置
CN106462565A (zh) * 2014-05-12 2017-02-22 谷歌公司 在文档内更新文本
CN106503930A (zh) * 2016-11-29 2017-03-15 北京优易惠技术有限公司 一种文件审核方法及装置
CN106557483A (zh) * 2015-09-25 2017-04-05 阿里巴巴集团控股有限公司 一种数据处理、数据查询方法及设备
CN106776851A (zh) * 2016-11-28 2017-05-31 国网上海市电力公司 文档结构化方法和设备
CN107103075A (zh) * 2017-04-24 2017-08-29 广东浪潮大数据研究有限公司 一种ftp文件的全文检索方法及装置
CN107402908A (zh) * 2017-04-13 2017-11-28 阿里巴巴集团控股有限公司 文档内容更新方法、装置及设备、可读介质
CN108038096A (zh) * 2017-11-10 2018-05-15 平安科技(深圳)有限公司 知识库文档快速检索方法、应用服务器计算机可读存储介质
CN108133016A (zh) * 2017-12-22 2018-06-08 大连景竣科技有限公司 一种办公用文档定位系统及方法
CN108287927A (zh) * 2018-03-05 2018-07-17 北京百度网讯科技有限公司 用于获取信息的方法及装置
CN108363768A (zh) * 2018-02-07 2018-08-03 深圳壹账通智能科技有限公司 一种基于Lucene的文档搜索方法、存储介质和服务器
CN109902288A (zh) * 2019-01-17 2019-06-18 深圳壹账通智能科技有限公司 智能条款分析方法、装置、计算机设备及存储介质
CN110084105A (zh) * 2019-03-15 2019-08-02 深圳壹账通智能科技有限公司 合同文件分析方法、装置、计算机设备及存储介质
CN110837998A (zh) * 2018-08-16 2020-02-25 北京国双科技有限公司 一种合同审核方法、装置、设备以及介质
CN111966816A (zh) * 2020-07-09 2020-11-20 福建亿榕信息技术有限公司 一种公文的智能关联方法和系统
CN113378539A (zh) * 2021-06-29 2021-09-10 华南理工大学 一种面向标准文档编写的模板推荐方法
CN115080684A (zh) * 2022-07-28 2022-09-20 天津联想协同科技有限公司 网盘文档索引方法、装置、网盘及存储介质
CN117688162A (zh) * 2024-01-16 2024-03-12 广东铭太信息科技有限公司 一种基于ocr识别的全文检索方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU781901B2 (en) * 2000-03-31 2005-06-23 International Business Machines Corporation Aggregation of content as a personalized document
JP4066621B2 (ja) * 2001-07-19 2008-03-26 富士通株式会社 全文検索システム及び全文検索プログラム
CN1598814A (zh) * 2003-09-19 2005-03-23 鸿富锦精密工业(深圳)有限公司 同义词分类检索系统及方法

Cited By (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102262640A (zh) * 2010-05-31 2011-11-30 中国移动通信集团贵州有限公司 一种全文检索文档数据库的方法及装置
CN102004800A (zh) * 2010-12-28 2011-04-06 北京数码大方科技有限公司 Pdm系统中数据的查询方法及装置
CN103034646A (zh) * 2011-09-30 2013-04-10 北大方正集团有限公司 Pdf样例文件的检索方法和装置
CN103034646B (zh) * 2011-09-30 2016-04-13 北大方正集团有限公司 Pdf样例文件的检索方法和装置
CN103186622B (zh) * 2011-12-30 2016-03-30 北大方正集团有限公司 一种全文检索系统中索引信息的更新方法以及装置
CN103186622A (zh) * 2011-12-30 2013-07-03 北大方正集团有限公司 一种全文检索系统中索引信息的更新方法以及装置
CN102663029A (zh) * 2012-03-25 2012-09-12 戴建凤 一种建筑工程电子图纸搜索装置
CN102819612A (zh) * 2012-08-29 2012-12-12 北京鼎盾信息科技有限公司 一种基于打印文档的全文检索方法
CN103795795A (zh) * 2014-01-24 2014-05-14 上海爱数软件有限公司 一种自动发现文档的共享方法及共享系统
CN103795795B (zh) * 2014-01-24 2017-11-03 上海爱数信息技术股份有限公司 一种自动发现文档的共享方法及共享系统
CN103823902A (zh) * 2014-03-18 2014-05-28 南京新模式软件集成有限公司 一种电子文件安全检索的方法
CN106462565B (zh) * 2014-05-12 2019-06-11 谷歌有限责任公司 在文档内更新文本
CN106462565A (zh) * 2014-05-12 2017-02-22 谷歌公司 在文档内更新文本
CN104239570A (zh) * 2014-09-30 2014-12-24 百度在线网络技术(北京)有限公司 论文的搜索方法及装置
CN104239570B (zh) * 2014-09-30 2018-04-13 百度在线网络技术(北京)有限公司 论文的搜索方法及装置
WO2016169152A1 (zh) * 2015-04-20 2016-10-27 中兴通讯股份有限公司 文件加速方法和装置
CN105022794A (zh) * 2015-06-26 2015-11-04 广州时韵信息科技有限公司 一种快速搜索所需文章内容的方法及装置
CN105069175A (zh) * 2015-09-18 2015-11-18 北京恒华伟业科技股份有限公司 一种基于版本控制系统的信息检索方法及服务器
CN105205149A (zh) * 2015-09-22 2015-12-30 镇江锐捷信息科技有限公司 一种基于云的信息化系统全文索引方法
CN106557483A (zh) * 2015-09-25 2017-04-05 阿里巴巴集团控股有限公司 一种数据处理、数据查询方法及设备
CN105608227B (zh) * 2016-01-26 2019-02-19 唐山新质点科技有限公司 文档数据检索方法及装置
CN105608227A (zh) * 2016-01-26 2016-05-25 唐山新质点科技有限公司 文档数据检索方法及装置
CN106021404A (zh) * 2016-05-12 2016-10-12 北京北大英华科技有限公司 检索方法
CN106021404B (zh) * 2016-05-12 2019-09-03 北京北大英华科技有限公司 检索方法
CN106776851A (zh) * 2016-11-28 2017-05-31 国网上海市电力公司 文档结构化方法和设备
CN106503930A (zh) * 2016-11-29 2017-03-15 北京优易惠技术有限公司 一种文件审核方法及装置
CN106503930B (zh) * 2016-11-29 2019-11-08 北京优易惠技术有限公司 一种文件审核方法及装置
CN107402908A (zh) * 2017-04-13 2017-11-28 阿里巴巴集团控股有限公司 文档内容更新方法、装置及设备、可读介质
CN107103075A (zh) * 2017-04-24 2017-08-29 广东浪潮大数据研究有限公司 一种ftp文件的全文检索方法及装置
CN108038096A (zh) * 2017-11-10 2018-05-15 平安科技(深圳)有限公司 知识库文档快速检索方法、应用服务器计算机可读存储介质
WO2019091026A1 (zh) * 2017-11-10 2019-05-16 平安科技(深圳)有限公司 知识库文档快速检索方法、应用服务器及计算机可读存储介质
CN108133016A (zh) * 2017-12-22 2018-06-08 大连景竣科技有限公司 一种办公用文档定位系统及方法
CN108363768A (zh) * 2018-02-07 2018-08-03 深圳壹账通智能科技有限公司 一种基于Lucene的文档搜索方法、存储介质和服务器
CN108287927A (zh) * 2018-03-05 2018-07-17 北京百度网讯科技有限公司 用于获取信息的方法及装置
CN108287927B (zh) * 2018-03-05 2019-10-22 北京百度网讯科技有限公司 用于获取信息的方法及装置
CN110837998A (zh) * 2018-08-16 2020-02-25 北京国双科技有限公司 一种合同审核方法、装置、设备以及介质
CN109902288A (zh) * 2019-01-17 2019-06-18 深圳壹账通智能科技有限公司 智能条款分析方法、装置、计算机设备及存储介质
CN110084105A (zh) * 2019-03-15 2019-08-02 深圳壹账通智能科技有限公司 合同文件分析方法、装置、计算机设备及存储介质
CN111966816A (zh) * 2020-07-09 2020-11-20 福建亿榕信息技术有限公司 一种公文的智能关联方法和系统
CN111966816B (zh) * 2020-07-09 2022-07-12 福建亿榕信息技术有限公司 一种公文的智能关联方法和系统
CN113378539A (zh) * 2021-06-29 2021-09-10 华南理工大学 一种面向标准文档编写的模板推荐方法
CN113378539B (zh) * 2021-06-29 2023-02-14 华南理工大学 一种面向标准文档编写的模板推荐方法
CN115080684A (zh) * 2022-07-28 2022-09-20 天津联想协同科技有限公司 网盘文档索引方法、装置、网盘及存储介质
CN115080684B (zh) * 2022-07-28 2023-01-06 天津联想协同科技有限公司 网盘文档索引方法、装置、网盘及存储介质
CN117688162A (zh) * 2024-01-16 2024-03-12 广东铭太信息科技有限公司 一种基于ocr识别的全文检索方法及系统
CN117688162B (zh) * 2024-01-16 2024-07-09 广东铭太信息科技有限公司 一种基于ocr识别的全文检索方法及系统

Also Published As

Publication number Publication date
CN101408876B (zh) 2011-03-16

Similar Documents

Publication Publication Date Title
CN101408876B (zh) 一种电子文档全文检索的方法及系统
CN101996195B (zh) 音频文件中语音信息的搜索方法、装置及设备
CN100405371C (zh) 一种提取新词的方法和系统
CN101179472B (zh) 一种网络资源搜索方法及搜索系统
CN102164186B (zh) 一种实现云搜索服务的方法及系统
US8296324B2 (en) Systems and methods for analyzing, integrating and updating media contact and content data
CN106682147A (zh) 一种基于海量数据的查询方法及装置
CN101118555A (zh) 关键词的联想信息生成系统和生成方法
CN104750795A (zh) 一种智能语义检索系统和方法
CN109766354A (zh) 业务数据查询的优化方法、装置及设备
US20020143808A1 (en) Intelligent document linking system
CN102063469A (zh) 一种用于获取相关关键词信息的方法、装置和计算机设备
CN102955802B (zh) 从数据报表中获取数据的方法和装置
CN109840254A (zh) 一种数据虚拟化及查询方法、装置
CN109710767B (zh) 多语种大数据服务平台
CN102737021A (zh) 搜索引擎及其实现方法
CN101339560B (zh) 一种搜索系列性数据的方法、装置及一种搜索引擎系统
CN103258029A (zh) 信息检索方法及系统
CN102622402B (zh) 使用页面集而提供信息搜索服务的服务器、方法和系统
CN102902670A (zh) 一种根据输入内容提供应用程序及入口的方法及其终端
CN106933864A (zh) 一种搜索引擎系统及其搜索方法
CN113641796A (zh) 数据搜索方法、系统及存储介质
CN105005619A (zh) 一种海量网站基础信息的快速检索方法和系统
CN103646034A (zh) 一种基于内容可信的Web搜索引擎系统及搜索方法
CN1804834A (zh) 一种实现网站级搜索网页级展示的中英文搜索引擎

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20151202

Address after: 333300 Leping City, Jiangxi province people's road, No. 116, No.

Patentee after: Power supply branch, northeast, Guo Wang Jiangxi Province Utilities Electric Co. Jiangxi

Patentee after: State Grid Corporation of China

Address before: 518057 Nanshan District high tech Industrial Park, Guangdong, South Road, science and technology, ZTE building, legal department

Patentee before: ZTE Corporation

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110316

Termination date: 20191009