CN101393551B - 专利全文检索的索引建立系统及方法 - Google Patents
专利全文检索的索引建立系统及方法 Download PDFInfo
- Publication number
- CN101393551B CN101393551B CN2007102017261A CN200710201726A CN101393551B CN 101393551 B CN101393551 B CN 101393551B CN 2007102017261 A CN2007102017261 A CN 2007102017261A CN 200710201726 A CN200710201726 A CN 200710201726A CN 101393551 B CN101393551 B CN 101393551B
- Authority
- CN
- China
- Prior art keywords
- retrieval
- patent document
- index
- module
- full text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明提供一种专利全文检索的索引建立系统,该系统包括通过网络连接的服务器及客户端。该服务器包括启动模块、转档模块、索引建立模块及数据库。启动模块用于侦测数据库是否增加了新的专利文件,如果有增加,则启动所述转档模块;转档模块用于读取该专利文件各组成部分的内容,将该专利文件各组成部分内容以预先定义的文件格式进行保存以完成转档;索引建立模块用于使用索引建立技术将上述转档后的专利文件的各组成部分内容添加至所述数据库中,并对该数据库中转档后的所有专利文件的各个组成部分的内容分别重新建立全文索引。本发明还提供一种专利全文检索的索引建立方法。本发明能为专利文件建立索引,方便用户进行专利文件全文内容的检索。
Description
技术领域
本发明是关于一种检索系统及方法,尤指一种应用于专利全文上的检索索引建立系统及方法。
背景技术
随着科技的蓬勃发展与网络资讯的日益普及,各种文件亦与日俱增,使得传统式的检索习惯受到相当大的影响与冲击。因为这些巨量的资料若使用传统的方式检索,其数量是相当惊人的,而且资料的利用率也不高。所以随着数位时代的来临,发展对文件的全文检索成为了必然的趋势。
与此相应的各种检索系统也因应而生,这些检索系统类似一个数据库,能存储大量的资料,满足使用者的检索需求。在这些数据库当中,往往存在一些相关栏位,这些栏位可能存储一些文字信息。因此,当使用者在检索资料时,该使用者实际是对数据库中的资料栏位进行检索。然而,使用者仍然需要耗费大量的精力与时间,将文件的文字资料录入到数据库中,从而给资料收集及后续的检索造成不便,从而影响到资料的利用价值。
发明内容
基于上述内容,有必要提供一种专利全文检索的索引建立系统,该系统包括通过网络相连接的服务器及客户端。该服务器包括启动模块、转档模块、索引建立模块及数据库。所述启动模块,用于侦测数据库是否增加了新的专利文件,如果数据库中增加了新的专利文件,则启动所述转档模块;所述转档模块,用于读取该专利文件的各组成部分的内容,将该专利文件的各组成部分内容以预先定义的文件格式进行保存,以完成转档;所述索引建立模块,用于使用索引建立技术将上述转档后的专利文件的各组成部分内容添加至所述数据库中,并对该数据库中转档后的所有专利文件的各个组成部分的内容分别重新建立全文索引。
所述客户端包括检索模块,用于根据用户的检索标的在建立好索引的数据库中进行专利全文检索,并计算检索结果的关联值,所述关联值是检索结果与检索标的之间的相似度;显示模块,用于对上述检索结果按照关联值排序,依序显示与当前检索标的相关的专利文件的简要信息及显示用户所选择的专利文件的全文信息。
本发明还提供一种专利全文检索的索引建立方法,该方法包括步骤:当数据库中增加了新的专利文件时,读取该专利文件的各部分内容;将该专利文件的各部分内容以预先定义的文件格式进行保存,以完成转档;使用索引建立技术添加该转档后的专利文件各部分内容到数据库中,并对该数据库中转档后的所有专利文件的各个组成部分的内容分别重新建立全文索引。
该方法还包括步骤:根据用户的检索标的在该建立索引的数据库中进行专利全文检索并计算关联值,所述关联值是检索结果与检索标的之间的相似度;对上述检索结果按照关联值排序,依序显示与当前检索标的相关的专利文件信息;及显示用户所选择的专利文件的全文信息。
本发明可当服务器中新增专利文件时,自动检测文件内容,将专利文件各组成部分的内容,自动读取出来,建立索引并存储到数据库中。方便用户进行专利文件全文内容的检索,获取与当前检索关键字相关的专利文件,并将相关检索结果按关联程度排列显示,方便用户阅读、参考。
附图说明
图1是本发明专利全文检索的索引建立系统较佳实施方式的模块图。
图2是本发明专利全文检索的索引建立方法的较佳实施方式的流程图。
图3是本发明建立完索引后进行全文检索的较佳实施方式的流程图。
具体实施方式
如图1所示,是本发明专利全文检索的索引建立系统较佳实施方式的模块图。该系统包括服务器1和客户端2,二者通过网络3连接。所述服务器1包括数据库17、启动模块11、转档模块12及索引建立模块13。所述客户端2包括检索模块20及显示模块21。
在本较佳实施方式中,每一专利文件包括说明书摘要、说明书、权利要求书三个组成部分,说明书部分又分为标题、技术领域、背景技术、发明内容、附图说明、具体实施方式等多个子部分。说明书摘要部分提供相应的说明书摘要主要内容和关键字,同样,说明书各子部分提供相应子部分的主要内容和关键字,权利要求书部分的每一项权利要求提供相应权利要求的主要内容和关键字。
启动模块11用于侦测数据库17中是否增加了新的专利文件,当侦测到数据库中增加了新的专利文件时,启动转档模块12进行转档作业。转档模块12用于通过文件传输协议(FileTransfer Protocol,FTP)从数据库17中获得新增的专利文件,依据上述描述的专利文件的组成部分对其进行分析,读取各组成部分的内容,并将该各组成部分的内容以预先定义的文件格式进行保存。该预先定义的文件格式的文件由标题、说明书摘要、说明书、权利要求书等部分组成,该预先定义的文件格式的文件所属的类型可以是网页、XML或其他可以转换成文本文件的类型。索引建立模块13使用索引建立技术将上述转档之后的专利文件各组成部分的内容添加到数据库17中,并对该数据库17中的所有转档之后的专利文件的各个组成部分的内容分别重新建立全文索引,包括对标题建立全文索引,说明书摘要部分建立全文索引,对说明书部分建立全文索引及对权利要求书部分建立全文索引。所述建立全文索引是指通过扫描每一部分内容的每一个词,对每一个词建立一个索引,指明该词在每一部分出现的次数及位置。该数据库17中包含与专利文件转档后的文件中各组成部分相对应的栏位,用来存储专利文件转档后各部分的内容和关键字。
检索模块20用于根据用户的检索标的对上述建立好索引的数据库17进行检索。通过检索每一专利文件各组成部分的条目对应的栏位,获得检索结果,并计算关联值。其中检索标的为用户输入的检索关键字,检索结果为按照检索标的在数据库17中检索出的所有专利文件的简要信息,包括专利标题、部分摘要内容、申请号等,关联值为检索结果与检索标的之间的相似度(区间为0~1),所述条目包括专利文件的标题、说明书摘要、说明书内容及权利要求书。检索模块20进行的检索方式可为单一条目检索和多条目联合检索。显示模块21用于对上述检索结果依关联值排序,依序显示上述检索出的与当前检索标的相关的专利文件的简要信息,从而方便阅读、参考。该显示模块21还用于当用户点击检索出的专利标题时将专利文件下载或开启供用户阅读。该显示模块21还用于在下载专利全文前进行专利全文的预览。
如图2所示,是本发明专利全文检索的索引建立方法的较佳实施方式的流程图。首先,启动模块11在侦测到数据库中增加了新的专利文件时,启动转档模块12通过FTP从数据库17中获取该专利文件(步骤S20)。转档模块12读取该专利文件各组成部分的内容,并将读取的专利文件的各组成部分的内容以预先定义的文件格式进行保存,该预先定义的文件格式的文件所属的类型可以是网页、XML或其他可以转换成文本文件的类型(步骤S21)。索引建立模块13使用索引建立技术将上述转档之后的专利文件的各部分内容添加到数据库17中,并对该数据库17中的转档之后的所有专利文件的各个组在部分的内容分别重新建立全文索引,包括对标题建立全文索引,说明书摘要部分建立全文索引,对说明书部分建立全文索引及对权利要求书部分建立全文索引。(步骤S22)。所述建立全文索引是指通过扫描每一部分内容的每一个词,对每一个词建立一个索引,指明该词在每一部分出现的次数及位置。
如图3所示是本发明建立完索引后进行全文检索的较佳实施方式的流程图。检索模块20根据用户提供的检索标的如关键字,在建立索引之后的数据库中依专利条目进行专利文件检索,检索到与该检索标的相关的所有专利,并计算检索结果的关联值;所述检索结果指检索到的所有专利的简要信息,该简要信息包括专利标题、部分摘要内容、申请号等;所述专利条目可以是标题、说明书摘要、说明书内容及权利要求书;关联值为检索结果与检索标的之间的相似度(区间为0~1)(步骤S32)。显示模块21根据关联值排序检索到的专利,依序显示上述检索出的与当前检索标的相关的专利文件的简要信息,从而方便阅读、参考(步骤S33)。保存所述关联值及排序结果到数据库17中(步骤S34)。显示模块21根据用户的选择,下载及显示所需的专利全文或预览专利全文(步骤S35)。
Claims (8)
1.一种专利全文检索的索引建立系统,该系统包括通过网络相连接的服务器及客户端,其特征在于,该服务器包括启动模块、转档模块、索引建立模块及数据库,其中:
所述启动模块,用于侦测数据库是否增加了新的专利文件,如果数据库中增加了新的专利文件,则启动所述转档模块;
所述转档模块,用于读取该专利文件的各组成部分的内容,将该专利文件的各组成部分内容以预先定义的文件格式进行保存,以完成转档;
所述索引建立模块,用于使用索引建立技术将上述转档后的专利文件的各组成部分内容分别添加至所述数据库中与各组成部分相对应的栏位,并通过扫描转档后的专利文件每一组成部分内容的每一个词对每一个词建立一个索引,并指明每一个词在每一部分出现的次数及位置,以对转档后的专利文件建立全文索引。
2.如权利要求1所述的专利全文检索的索引建立系统,其特征在于,所述客户端包括:
检索模块,用于根据用户的检索标的在建立好索引的数据库中进行专利全文检索,并计算检索结果的关联值,所述关联值是检索结果与检索标的之间的相似度;及
显示模块,用于对上述检索结果按照关联值排序,依序显示与当前检索标的相关的专利文件的简要信息及显示用户选择的专利的全文信息。
3.如权利要求2所述的专利全文检索的索引建立系统,其特征在于,所述检索模块使用的检索方式是单一条目检索或多条目联合检索,所述条目包括专利文件的标题、说明书摘要、说明书内容及权利要求书。
4.如权利要求1所述的专利全文检索的索引建立系统,其特征在于,所述预先定义的文件格式的文件所属的类型是网页或XML文件或其他可以转换成文本文件的类型。
5.一种专利全文检索的索引建立方法,其特征在于,该方法包括步骤:
当数据库中新增专利文件时,读取该专利文件的各部分内容;
将该专利文件的各部分内容以预先定义的文件格式进行保存,以完成转档;
使用索引建立技术分别添加该转档后的专利文件各部分内容到数据库中与各组成部分相对应的栏位,并通过扫描转档后的专利文件每一组成部分内容的每一个词对每一个词建立一个索引,并指明每一个词在每一部分出现的次数及位置,以对转档后的专利文件建立全文索引。
6.如权利要求5所述的专利全文检索的索引建立方法,其特征在于,该方法还包括步骤:
根据用户的检索标的在该建立索引的数据库中进行专利全文检索并计算关联值,所述关联值是检索结果与检索标的之间的相似度;
对上述检索结果按照关联值排序,依序显示与当前检索标的相关的专利文件的简要信息;及
显示用户所选择的专利的全文信息。
7.如权利要求6所述的专利全文检索的索引建立方法,其特征在于,所述在数据库中进行检索所使用的检索方式是单一条目检索或多条目联合检索,所述条目包括专利文件的标题、说明书摘要、说明书内容及权利要求书。
8.如权利要求5所述的专利全文检索的索引建立方法,其特征在于,所述预先定义的文件格式的文件所属的类型是网页或XML文件或其他可以转换成文本文件的类型。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2007102017261A CN101393551B (zh) | 2007-09-17 | 2007-09-17 | 专利全文检索的索引建立系统及方法 |
US11/967,099 US20090077031A1 (en) | 2007-09-17 | 2007-12-29 | System and method for creating full-text indexes of patent documents |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2007102017261A CN101393551B (zh) | 2007-09-17 | 2007-09-17 | 专利全文检索的索引建立系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101393551A CN101393551A (zh) | 2009-03-25 |
CN101393551B true CN101393551B (zh) | 2011-03-23 |
Family
ID=40455656
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2007102017261A Expired - Fee Related CN101393551B (zh) | 2007-09-17 | 2007-09-17 | 专利全文检索的索引建立系统及方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20090077031A1 (zh) |
CN (1) | CN101393551B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101894115B (zh) * | 2009-05-18 | 2012-10-03 | 北京大学 | 电子文档的图像数据处理方法及其装置 |
CN102479195A (zh) * | 2010-11-25 | 2012-05-30 | 中兴通讯股份有限公司 | 一种网管服务器及其实现业务数据存储和查询的方法 |
CN106021244A (zh) * | 2015-03-17 | 2016-10-12 | 北京国双科技有限公司 | 数据监测方法和装置 |
CN107193849A (zh) * | 2016-03-15 | 2017-09-22 | 北大方正集团有限公司 | Xml文件全文检索索引生成方法及装置 |
CN109543042A (zh) * | 2018-12-01 | 2019-03-29 | 南京鸿越科技有限公司 | 专利自动分类系统 |
CN109885641B (zh) * | 2019-01-21 | 2021-03-09 | 瀚高基础软件股份有限公司 | 一种数据库中文全文检索的方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1622083A (zh) * | 2003-11-29 | 2005-06-01 | 鸿富锦精密工业(深圳)有限公司 | 专利下载系统及方法 |
CN101005373A (zh) * | 2006-01-16 | 2007-07-25 | 鸿富锦精密工业(深圳)有限公司 | 专利申请电子送件系统及方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3113814B2 (ja) * | 1996-04-17 | 2000-12-04 | インターナショナル・ビジネス・マシーンズ・コーポレ−ション | 情報検索方法及び情報検索装置 |
US5987460A (en) * | 1996-07-05 | 1999-11-16 | Hitachi, Ltd. | Document retrieval-assisting method and system for the same and document retrieval service using the same with document frequency and term frequency |
US6401118B1 (en) * | 1998-06-30 | 2002-06-04 | Online Monitoring Services | Method and computer program product for an online monitoring search engine |
JP3870666B2 (ja) * | 2000-06-02 | 2007-01-24 | 株式会社日立製作所 | 文書検索方法および装置並びにその処理プログラムを記録した記録媒体 |
DE50107960D1 (de) * | 2000-08-23 | 2005-12-15 | Martin Schleske | Resonanzplatte in Faserverbund-Bauweise |
JP3842577B2 (ja) * | 2001-03-30 | 2006-11-08 | 株式会社東芝 | 構造化文書検索方法および構造化文書検索装置およびプログラム |
US7010515B2 (en) * | 2001-07-12 | 2006-03-07 | Matsushita Electric Industrial Co., Ltd. | Text comparison apparatus |
EP1411448A3 (en) * | 2002-10-17 | 2007-12-05 | Matsushita Electric Industrial Co., Ltd. | Data searching apparatus |
US8200695B2 (en) * | 2006-04-13 | 2012-06-12 | Lg Electronics Inc. | Database for uploading, storing, and retrieving similar documents |
US8108388B2 (en) * | 2006-04-26 | 2012-01-31 | Microsoft Corporation | Significant change search alerts |
CN101127101A (zh) * | 2006-08-18 | 2008-02-20 | 鸿富锦精密工业(深圳)有限公司 | 商标信息监控系统及方法 |
-
2007
- 2007-09-17 CN CN2007102017261A patent/CN101393551B/zh not_active Expired - Fee Related
- 2007-12-29 US US11/967,099 patent/US20090077031A1/en not_active Abandoned
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1622083A (zh) * | 2003-11-29 | 2005-06-01 | 鸿富锦精密工业(深圳)有限公司 | 专利下载系统及方法 |
CN101005373A (zh) * | 2006-01-16 | 2007-07-25 | 鸿富锦精密工业(深圳)有限公司 | 专利申请电子送件系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN101393551A (zh) | 2009-03-25 |
US20090077031A1 (en) | 2009-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8347231B2 (en) | Methods, systems, and computer program products for displaying tag words for selection by users engaged in social tagging of content | |
CN104537116B (zh) | 一种基于标签的图书搜索方法 | |
CN103593425B (zh) | 基于偏好的智能检索方法及系统 | |
CN103020270B (zh) | 用于电子书籍的信息检索系统和方法 | |
CN101299217B (zh) | 一种地图信息处理的方法、装置和系统 | |
CN101393551B (zh) | 专利全文检索的索引建立系统及方法 | |
EP2131290A1 (en) | Method of displaying related keyword and system as the same | |
CN102103389A (zh) | 多屏幕电子装置及其参考资料显示方法 | |
WO2009031759A1 (en) | Method and system for generating search collection of query | |
WO2007132342A1 (en) | Documentary search procedure in a distributed information system | |
KR100671077B1 (ko) | 페이지 묶음을 이용한 정보 검색 서비스 제공 서버, 방법및 시스템 | |
CN101425089A (zh) | 用于在线电子图书的加载方法和检索方法 | |
CN102819384A (zh) | 一种输入栏处进行提示显示的方法和装置 | |
CN102436458B (zh) | 一种命令解析的方法及其系统 | |
CN101706819A (zh) | 数据库的查询方法和系统,客户端、服务器及数据库 | |
CN102541901A (zh) | 一种文档阅读时的信息识别输出方法及系统 | |
CN103136356B (zh) | 一种搜索引擎终端用户输入参考文件提示信息的处理方法 | |
CN102915312B (zh) | 网站中的信息发布方法和系统 | |
CN103377246B (zh) | 书签处理方法和终端浏览器 | |
CN106649879A (zh) | 一种图书馆专业书籍智能推荐方法 | |
CN102385597B (zh) | 一种poi的容错搜索方法 | |
CN103220387A (zh) | 一种触摸屏手机用搜索方法及装置 | |
CN101344892B (zh) | 信息处理设备及信息处理方法 | |
CN102541626A (zh) | 一种修改文件名的方法及系统 | |
CN101840401A (zh) | 词典辅助查询系统及其方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110323 Termination date: 20140917 |
|
EXPY | Termination of patent right or utility model |