CN107193849A - Xml文件全文检索索引生成方法及装置 - Google Patents
Xml文件全文检索索引生成方法及装置 Download PDFInfo
- Publication number
- CN107193849A CN107193849A CN201610148056.0A CN201610148056A CN107193849A CN 107193849 A CN107193849 A CN 107193849A CN 201610148056 A CN201610148056 A CN 201610148056A CN 107193849 A CN107193849 A CN 107193849A
- Authority
- CN
- China
- Prior art keywords
- file
- index
- xml
- generation
- pending
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/84—Mapping; Conversion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种XML文件全文检索索引生成方法及装置,该方法包括:根据待处理XML文件,生成XML筛选配置文件;根据待处理XML文件,生成索引生成配置文件;读取XML筛选配置文件,获取待处理XML文件中的待索引元素;读取索引生成配置文件,将待处理XML文件中的待索引元素按照所述索引生成配置文件中预设的索引映射关系进行索引,生成索引文件;其中,XML筛选配置文件设置了待处理XML文件中的待索引元素;索引生成配置文件设置了待处理XML文件中的待索引元素的索引映射关系。上述方法能够为XML文件自动生成全文检索的索引,比现有技术更简洁、方便。
Description
技术领域
本发明涉及全文检索技术领域,尤其涉及一种XML文件全文检索索引生成方法及装置。
背景技术
随着近些年信息化的加快,信息的获取越来越容易,特别是在互联网领域。获取互联网中的知识需要借助一些工具,而在众多工具之中最重要的工具是互联网检索引擎,即针对互联网数据的全文检索引擎。通过输入关键词,用户可以通过全文检索引擎在浩瀚的网页中检索到需要的网页。
全文检索,除了在互联网领域具有重要的应用之外,在一些信息化系统中,例如办公系统、财务系统等,也都有着广泛的应用价值。在现有的一些办公系统中,它们的一些业务数据是来自于外部系统的可扩展标记语言(Extensible Markup Language,简称XML)推送,例如:新华社的电稿数据是通过xml格式的文件定期下发给各个报社的生产系统的。
鉴于此,如何为XML文件自动生成全文检索的索引,以供现有系统及互联网进行检索使用成为目前需要解决的技术问题。
发明内容
为解决上述的技术问题,本发明提供一种XML文件全文检索索引生成方法及装置,能够为XML文件自动生成全文检索的索引,比现有技术更简洁、方便。
第一方面,本发明提供一种XML文件全文检索索引生成方法,包括:
根据待处理XML文件,生成XML筛选配置文件;
根据待处理XML文件,生成索引生成配置文件;
读取XML筛选配置文件,获取待处理XML文件中的待索引元素;
读取索引生成配置文件,将待处理XML文件中的待索引元素按照所述索引生成配置文件中预设的索引映射关系进行索引,生成索引文件;
其中,所述XML筛选配置文件设置了待处理XML文件中的待索引元素;所述索引生成配置文件设置了待处理XML文件中的待索引元素的索引映射关系。
可选地,所述根据待处理XML文件,生成XML筛选配置文件,包括:
根据待处理XML文件,利用Xpath技术,生成XML筛选配置文件;
相应地,所述读取XML筛选配置文件,获取待处理XML文件中的待索引元素,包括:
读取XML筛选配置文件,利用Xpath技术,获取待处理XML文件中的待索引元素。
可选地,所述读取索引生成配置文件,将待处理XML文件中的待索引元素按照所述索引生成配置文件中预设的索引映射关系进行索引,生成索引文件,包括:
读取索引生成配置文件,利用全文检索工具将待处理XML文件中的待索引元素按照所述索引生成配置文件中预设的索引映射关系进行索引,生成索引文件。
可选地,所述全文检索工具,包括:Lucene。
可选地,所述待处理XML文件,包括:外部系统推送给信息系统的XML文件,或信息系统内部每隔预设时间段产生的XML文件。
第二方面,本发明提供一种XML文件全文检索索引生成装置,包括:配置文件生成器和索引生成器;
所述配置文件生成器,包括:第一生成模块和第二生成模块;
所述第一生成模块,用于根据待处理XML文件,生成XML筛选配置文件;
所述第二生成模块,用于根据待处理XML文件,生成索引生成配置文件;
所述索引生成器,包括:元素获取模块和索引生成模块;
所述元素获取模块,用于读取XML筛选配置文件,获取待处理XML文件中的待索引元素;
所述索引生成模块,用于读取索引生成配置文件,将待处理XML文件中的待索引元素按照所述索引生成配置文件中预设的索引映射关系进行索引,生成索引文件;
其中,所述XML筛选配置文件设置了待处理XML文件中的待索引元素;所述索引生成配置文件设置了待处理XML文件中的待索引元素的索引映射关系。
可选地,所述第一生成模块,具体用于
根据待处理XML文件,利用Xpath技术,生成XML筛选配置文件;
相应地,所述元素获取模块,具体用于
读取XML筛选配置文件,利用Xpath技术,获取待处理XML文件中的待索引元素。
可选地,所述索引生成模块,具体用于
读取索引生成配置文件,利用全文检索工具将待处理XML文件中的待索引元素按照所述索引生成配置文件中预设的索引映射关系进行索引,生成索引文件。
可选地,所述全文检索工具,包括:Lucene。
可选地,所述待处理XML文件,包括:外部系统推送给信息系统的XML文件,或信息系统内部每隔预设时间段产生的XML文件。
由上述技术方案可知,本发明的XML文件全文检索索引生成方法及装置,通过先根据待处理XML文件生成XML筛选配置文件和索引生成配置文件,再读取XML筛选配置文件获取待处理XML文件中的待索引元素,读取索引生成配置文件,利用全文检索工具将待处理XML文件中的待索引元素按照索引生成配置文件中预设的索引映射关系进行索引,生成索引文件,能够对XML文件自动生成全文检索的索引,比现有技术更简洁、方便。
附图说明
图1为本发明一实施例提供的一种XML文件全文检索索引生成方法的流程示意图;
图2为图1所示XML文件全文检索索引生成方法的一种具体的流程示意图;
图3为本发明一实施例提供的一种XML文件全文检索索引生成装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他的实施例,都属于本发明保护的范围。
图1示出了本发明一实施例提供的XML文件全文检索索引生成方法的流程示意图,如图1所示,本实施例的XML文件全文检索索引生成方法如下所述。
101、根据待处理XML文件,生成XML筛选配置文件。
其中,所述XML筛选配置文件设置了待处理XML文件中的待索引元素。
在具体应用中,所述待处理XML文件,可以包括:外部系统推送给信息系统的XML文件,或信息系统内部每隔预设时间段产生的XML文件等。
102、根据待处理XML文件,生成索引生成配置文件;
其中,所述索引生成配置文件设置了待处理XML文件中的待索引元素的索引映射关系。
103、读取XML筛选配置文件,获取待处理XML文件中的待索引元素。
104、读取索引生成配置文件,将待处理XML文件中的待索引元素按照所述索引生成配置文件中预设的索引映射关系进行索引,生成索引文件。
可理解的是,本实施例生成的索引可以直接被程序检索使用。
本发明的XML文件全文检索索引生成方法,通过先根据待处理XML文件生成XML筛选配置文件和索引生成配置文件,再读取XML筛选配置文件获取待处理XML文件中的待索引元素,读取索引生成配置文件,利用全文检索工具将待处理XML文件中的待索引元素按照索引生成配置文件中预设的索引映射关系进行索引,生成索引文件,能够对XML文件自动生成全文检索的索引,用户只需要修改XML筛选配置文件和索引生成配置文件,就可以达到自动化索引XML的目的,比现有技术更简洁、方便。
在具体应用中,上述步骤101,可包括:
根据待处理XML文件,利用Xpath技术,生成XML筛选配置文件;
相应地,上述步骤103,包括:
读取XML筛选配置文件,利用Xpath技术,获取待处理XML文件中的待索引元素;其中,所述XML筛选配置文件预先利用Xpath技术设置了待处理XML文件中的待索引元素。
可理解的是,XPath即为XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言,XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力,可以认为Xpath是专门为XML提供的小型检索语言。
利用Xpath技术,获取待处理XML文件中的待索引元素,能够准确快速的定位到Xml文件(文档)中有哪些元素要进行索引化,为后续的实际索引话提供数据支持。
在具体应用中,本实施例所述XML筛选配置文件除设置了待处理XML文件中的待索引元素之外,还为每一待索引元素指定对应的资源代号,例如,下面的配置片段,表示属性name=title的doc元素将被进行索引,资源代号为title:
<xmlFilters>
<xmlFilter code="titleFitler"><xpath>//doc[@name='title']</xpath></xmlFilter>
</xmlFilters>
在具体应用中,上述步骤104,可包括:
读取索引生成配置文件,利用全文检索工具将待处理XML文件中的待索引元素按照所述索引生成配置文件中预设的索引映射关系进行索引,生成索引文件。
其中,所述全文检索工具,可以包括:Lucene等。Lucene是一个全文检索技术的的一个开源实现,在本实施例中可以作为用来提供全文检索的工具,但全文检索工具不止lucene一种,本实施例并不对其进行限制。
在具体应用中,本实施例所述索引生成配置文件设置了待处理XML文件中的待索引元素的索引映射关系,例如,下面的配置片段表示,在上述XML筛选配置文件中的code为titleFitler的Filter会被生成一个索引,索引名称为title,生成的索引被存储到D盘的index目录:
<indexs dir="d:\\index">
<index code="title"type='string'><xmlFilterCode>titleFitler
</xmlFilterCode></index>
</indexs>
在具体应用中,本实施例所述方法的具体流程也可以进一步如图2所示。
本实施例的XML文件全文检索索引生成方法,能够对XML文件自动生成全文检索的索引,比现有技术更简洁、方便。
图3示出了本发明一实施例提供的一种XML文件全文检索索引生成装置的结构示意图,如图3所示,本实施例的XML文件全文检索索引生成装置,包括:配置文件生成器1和索引生成器2;
所述配置文件生成器1,包括:第一生成模块11和第二生成模块12;
所述第一生成模块11,用于根据待处理XML文件,生成XML筛选配置文件;
所述第二生成模块12,用于根据待处理XML文件,生成索引生成配置文件;
所述索引生成器2,包括:元素获取模块21和索引生成模块22;
所述元素获取模块21,用于读取XML筛选配置文件,获取待处理XML文件中的待索引元素;
所述索引生成模块22,用于读取索引生成配置文件,将待处理XML文件中的待索引元素按照所述索引生成配置文件中预设的索引映射关系进行索引,生成索引文件;
其中,所述XML筛选配置文件设置了待处理XML文件中的待索引元素;所述索引生成配置文件设置了待处理XML文件中的待索引元素的索引映射关系。
在具体应用中,所述待处理XML文件,包括:外部系统推送给信息系统的XML文件,或信息系统内部每隔预设时间段产生的XML文件。
在具体应用中,所述XML筛选配置文件还为每一待索引元素指定对应的资源代号。
在具体应用中,所述第一生成模块11,可具体用于
根据待处理XML文件,利用Xpath技术,生成XML筛选配置文件;
相应地,所述元素获取模块21,具体用于
读取XML筛选配置文件,利用Xpath技术,获取待处理XML文件中的待索引元素。
在具体应用中,所述索引生成模块22,可具体用于
读取索引生成配置文件,利用全文检索工具将待处理XML文件中的待索引元素按照所述索引生成配置文件中预设的索引映射关系进行索引,生成索引文件。
其中,所述全文检索工具,可包括:Lucene等。
可理解的是,本实施例生成的索引可以直接被程序检索使用。
本实施例的索引生成器,能够对XML文件自动生成全文检索的索引,用户只需要修改XML筛选配置文件和索引生成配置文件,就可以达到自动化索引XML的目的,比现有技术更简洁、方便。
本实施例的索引生成器,可以用于执行前述图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种XML文件全文检索索引生成方法,其特征在于,包括:
根据待处理XML文件,生成XML筛选配置文件;
根据待处理XML文件,生成索引生成配置文件;
读取XML筛选配置文件,获取待处理XML文件中的待索引元素;
读取索引生成配置文件,将待处理XML文件中的待索引元素按照所述索引生成配置文件中预设的索引映射关系进行索引,生成索引文件;
其中,所述XML筛选配置文件设置了待处理XML文件中的待索引元素;所述索引生成配置文件设置了待处理XML文件中的待索引元素的索引映射关系。
2.根据权利要求1所述的方法,其特征在于,所述根据待处理XML文件,生成XML筛选配置文件,包括:
根据待处理XML文件,利用Xpath技术,生成XML筛选配置文件;
相应地,所述读取XML筛选配置文件,获取待处理XML文件中的待索引元素,包括:
读取XML筛选配置文件,利用Xpath技术,获取待处理XML文件中的待索引元素。
3.根据权利要求1所述的方法,其特征在于,所述读取索引生成配置文件,将待处理XML文件中的待索引元素按照所述索引生成配置文件中预设的索引映射关系进行索引,生成索引文件,包括:
读取索引生成配置文件,利用全文检索工具将待处理XML文件中的待索引元素按照所述索引生成配置文件中预设的索引映射关系进行索引,生成索引文件。
4.根据权利要求3所述的方法,其特征在于,所述全文检索工具,包括:Lucene。
5.根据权利要求1所述的方法,其特征在于,所述待处理XML文件,包括:外部系统推送给信息系统的XML文件,或信息系统内部每隔预设时间段产生的XML文件。
6.一种XML文件全文检索索引生成装置,其特征在于,包括:配置文件生成器和索引生成器;
所述配置文件生成器,包括:第一生成模块和第二生成模块;
所述第一生成模块,用于根据待处理XML文件,生成XML筛选配置文件;
所述第二生成模块,用于根据待处理XML文件,生成索引生成配置文件;
所述索引生成器,包括:元素获取模块和索引生成模块;
所述元素获取模块,用于读取XML筛选配置文件,获取待处理XML文件中的待索引元素;
所述索引生成模块,用于读取索引生成配置文件,将待处理XML文件中的待索引元素按照所述索引生成配置文件中预设的索引映射关系进行索引,生成索引文件;
其中,所述XML筛选配置文件设置了待处理XML文件中的待索引元素;所述索引生成配置文件设置了待处理XML文件中的待索引元素的索引映射关系。
7.根据权利要求6所述的装置,其特征在于,所述第一生成模块,具体用于
根据待处理XML文件,利用Xpath技术,生成XML筛选配置文件;
相应地,所述元素获取模块,具体用于
读取XML筛选配置文件,利用Xpath技术,获取待处理XML文件中的待索引元素。
8.根据权利要求6所述的装置,其特征在于,所述索引生成模块,具体用于
读取索引生成配置文件,利用全文检索工具将待处理XML文件中的待索引元素按照所述索引生成配置文件中预设的索引映射关系进行索引,生成索引文件。
9.根据权利要求8所述的装置,其特征在于,所述全文检索工具,包括:Lucene。
10.根据权利要求6所述的装置,其特征在于,所述待处理XML文件,包括:外部系统推送给信息系统的XML文件,或信息系统内部每隔预设时间段产生的XML文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610148056.0A CN107193849A (zh) | 2016-03-15 | 2016-03-15 | Xml文件全文检索索引生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610148056.0A CN107193849A (zh) | 2016-03-15 | 2016-03-15 | Xml文件全文检索索引生成方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107193849A true CN107193849A (zh) | 2017-09-22 |
Family
ID=59870772
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610148056.0A Pending CN107193849A (zh) | 2016-03-15 | 2016-03-15 | Xml文件全文检索索引生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107193849A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115910316A (zh) * | 2022-09-08 | 2023-04-04 | 杭州脉兴医疗科技有限公司 | 一种基于电子病历推断发病时间的方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101393551A (zh) * | 2007-09-17 | 2009-03-25 | 鸿富锦精密工业(深圳)有限公司 | 专利全文检索的索引建立系统及方法 |
CN101609460A (zh) * | 2009-07-22 | 2009-12-23 | 中国科学院地理科学与资源研究所 | 一种支持异构地学数据资源的检索方法及检索系统 |
CN101620633A (zh) * | 2008-07-04 | 2010-01-06 | 软件股份公司 | 用于在xml数据库管理系统中生成索引的方法和系统 |
CN103123650A (zh) * | 2013-03-06 | 2013-05-29 | 同方知网(北京)技术有限公司 | 一种基于整数映射的xml数据库全文索引方法 |
CN103136304A (zh) * | 2011-12-05 | 2013-06-05 | 北大方正集团有限公司 | 条目的处理方法和装置 |
CN104216966A (zh) * | 2014-08-25 | 2014-12-17 | 浪潮软件股份有限公司 | 一种支持多种方式创建索引的方法 |
-
2016
- 2016-03-15 CN CN201610148056.0A patent/CN107193849A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101393551A (zh) * | 2007-09-17 | 2009-03-25 | 鸿富锦精密工业(深圳)有限公司 | 专利全文检索的索引建立系统及方法 |
CN101620633A (zh) * | 2008-07-04 | 2010-01-06 | 软件股份公司 | 用于在xml数据库管理系统中生成索引的方法和系统 |
CN101609460A (zh) * | 2009-07-22 | 2009-12-23 | 中国科学院地理科学与资源研究所 | 一种支持异构地学数据资源的检索方法及检索系统 |
CN103136304A (zh) * | 2011-12-05 | 2013-06-05 | 北大方正集团有限公司 | 条目的处理方法和装置 |
CN103123650A (zh) * | 2013-03-06 | 2013-05-29 | 同方知网(北京)技术有限公司 | 一种基于整数映射的xml数据库全文索引方法 |
CN104216966A (zh) * | 2014-08-25 | 2014-12-17 | 浪潮软件股份有限公司 | 一种支持多种方式创建索引的方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115910316A (zh) * | 2022-09-08 | 2023-04-04 | 杭州脉兴医疗科技有限公司 | 一种基于电子病历推断发病时间的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11568013B2 (en) | Methods and systems for providing a search service application | |
US20090187550A1 (en) | Specifying relevance ranking preferences utilizing search scopes | |
US20200026913A1 (en) | Blockwise extraction of document metadata | |
CN108334628A (zh) | 一种新闻事件聚类的方法、装置、设备和储存介质 | |
US10878020B2 (en) | Automated extraction tools and their use in social content tagging systems | |
US9069769B2 (en) | Creating or modifying an ordered trail of links to pages and/or documents | |
CN104133772A (zh) | 一种自动生成测试数据的方法 | |
US12086194B2 (en) | Methods and systems for building search service application | |
KR20130049111A (ko) | 분산 처리를 이용한 포렌식 인덱스 방법 및 장치 | |
US20140040233A1 (en) | Organizing content | |
WO2017142519A1 (en) | Content classes for object storage indexing systems | |
US20110107198A1 (en) | Information processing apparatus, storage medium, and information processing method | |
US20100036821A1 (en) | File Uploading Method with Function of Abstracting Index Information in Real Time and Web Storage System Using the Same | |
CN107193849A (zh) | Xml文件全文检索索引生成方法及装置 | |
Halaschek-Wiener et al. | A Flexible Approach for Managing Digital Images on the Semantic Web. | |
US9342586B2 (en) | Managing and using shareable search lists | |
CN102141912B (zh) | 一种处理多类引擎Widget的方法及装置 | |
CN105488170B (zh) | 一种erp系统的信息管理方法及装置 | |
Patil et al. | An innovative approach to classify and retrieve text documents using feature extraction and Hierarchical clustering based on ontology | |
Zapilko et al. | Applying linked data technologies in the social sciences | |
US9256608B2 (en) | Mapping user content to folders in a file system | |
US20130117330A1 (en) | Retaining corporate memory | |
CN117891992B (zh) | 数据爬取方法、装置、电子设备和存储介质 | |
US9060203B2 (en) | Personalized categorization of television programming | |
Geißner | Modeling institutional research data repositories using the DCAT3 Data Catalog Vocabulary |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170922 |