CN107193849A - Xml文件全文检索索引生成方法及装置 - Google Patents

Xml文件全文检索索引生成方法及装置 Download PDF

Info

Publication number
CN107193849A
CN107193849A CN201610148056.0A CN201610148056A CN107193849A CN 107193849 A CN107193849 A CN 107193849A CN 201610148056 A CN201610148056 A CN 201610148056A CN 107193849 A CN107193849 A CN 107193849A
Authority
CN
China
Prior art keywords
file
index
xml
generation
pending
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610148056.0A
Other languages
English (en)
Inventor
毕继安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201610148056.0A priority Critical patent/CN107193849A/zh
Publication of CN107193849A publication Critical patent/CN107193849A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种XML文件全文检索索引生成方法及装置,该方法包括:根据待处理XML文件,生成XML筛选配置文件;根据待处理XML文件,生成索引生成配置文件;读取XML筛选配置文件,获取待处理XML文件中的待索引元素;读取索引生成配置文件,将待处理XML文件中的待索引元素按照所述索引生成配置文件中预设的索引映射关系进行索引,生成索引文件;其中,XML筛选配置文件设置了待处理XML文件中的待索引元素;索引生成配置文件设置了待处理XML文件中的待索引元素的索引映射关系。上述方法能够为XML文件自动生成全文检索的索引,比现有技术更简洁、方便。

Description

XML文件全文检索索引生成方法及装置
技术领域
本发明涉及全文检索技术领域,尤其涉及一种XML文件全文检索索引生成方法及装置。
背景技术
随着近些年信息化的加快,信息的获取越来越容易,特别是在互联网领域。获取互联网中的知识需要借助一些工具,而在众多工具之中最重要的工具是互联网检索引擎,即针对互联网数据的全文检索引擎。通过输入关键词,用户可以通过全文检索引擎在浩瀚的网页中检索到需要的网页。
全文检索,除了在互联网领域具有重要的应用之外,在一些信息化系统中,例如办公系统、财务系统等,也都有着广泛的应用价值。在现有的一些办公系统中,它们的一些业务数据是来自于外部系统的可扩展标记语言(Extensible Markup Language,简称XML)推送,例如:新华社的电稿数据是通过xml格式的文件定期下发给各个报社的生产系统的。
鉴于此,如何为XML文件自动生成全文检索的索引,以供现有系统及互联网进行检索使用成为目前需要解决的技术问题。
发明内容
为解决上述的技术问题,本发明提供一种XML文件全文检索索引生成方法及装置,能够为XML文件自动生成全文检索的索引,比现有技术更简洁、方便。
第一方面,本发明提供一种XML文件全文检索索引生成方法,包括:
根据待处理XML文件,生成XML筛选配置文件;
根据待处理XML文件,生成索引生成配置文件;
读取XML筛选配置文件,获取待处理XML文件中的待索引元素;
读取索引生成配置文件,将待处理XML文件中的待索引元素按照所述索引生成配置文件中预设的索引映射关系进行索引,生成索引文件;
其中,所述XML筛选配置文件设置了待处理XML文件中的待索引元素;所述索引生成配置文件设置了待处理XML文件中的待索引元素的索引映射关系。
可选地,所述根据待处理XML文件,生成XML筛选配置文件,包括:
根据待处理XML文件,利用Xpath技术,生成XML筛选配置文件;
相应地,所述读取XML筛选配置文件,获取待处理XML文件中的待索引元素,包括:
读取XML筛选配置文件,利用Xpath技术,获取待处理XML文件中的待索引元素。
可选地,所述读取索引生成配置文件,将待处理XML文件中的待索引元素按照所述索引生成配置文件中预设的索引映射关系进行索引,生成索引文件,包括:
读取索引生成配置文件,利用全文检索工具将待处理XML文件中的待索引元素按照所述索引生成配置文件中预设的索引映射关系进行索引,生成索引文件。
可选地,所述全文检索工具,包括:Lucene。
可选地,所述待处理XML文件,包括:外部系统推送给信息系统的XML文件,或信息系统内部每隔预设时间段产生的XML文件。
第二方面,本发明提供一种XML文件全文检索索引生成装置,包括:配置文件生成器和索引生成器;
所述配置文件生成器,包括:第一生成模块和第二生成模块;
所述第一生成模块,用于根据待处理XML文件,生成XML筛选配置文件;
所述第二生成模块,用于根据待处理XML文件,生成索引生成配置文件;
所述索引生成器,包括:元素获取模块和索引生成模块;
所述元素获取模块,用于读取XML筛选配置文件,获取待处理XML文件中的待索引元素;
所述索引生成模块,用于读取索引生成配置文件,将待处理XML文件中的待索引元素按照所述索引生成配置文件中预设的索引映射关系进行索引,生成索引文件;
其中,所述XML筛选配置文件设置了待处理XML文件中的待索引元素;所述索引生成配置文件设置了待处理XML文件中的待索引元素的索引映射关系。
可选地,所述第一生成模块,具体用于
根据待处理XML文件,利用Xpath技术,生成XML筛选配置文件;
相应地,所述元素获取模块,具体用于
读取XML筛选配置文件,利用Xpath技术,获取待处理XML文件中的待索引元素。
可选地,所述索引生成模块,具体用于
读取索引生成配置文件,利用全文检索工具将待处理XML文件中的待索引元素按照所述索引生成配置文件中预设的索引映射关系进行索引,生成索引文件。
可选地,所述全文检索工具,包括:Lucene。
可选地,所述待处理XML文件,包括:外部系统推送给信息系统的XML文件,或信息系统内部每隔预设时间段产生的XML文件。
由上述技术方案可知,本发明的XML文件全文检索索引生成方法及装置,通过先根据待处理XML文件生成XML筛选配置文件和索引生成配置文件,再读取XML筛选配置文件获取待处理XML文件中的待索引元素,读取索引生成配置文件,利用全文检索工具将待处理XML文件中的待索引元素按照索引生成配置文件中预设的索引映射关系进行索引,生成索引文件,能够对XML文件自动生成全文检索的索引,比现有技术更简洁、方便。
附图说明
图1为本发明一实施例提供的一种XML文件全文检索索引生成方法的流程示意图;
图2为图1所示XML文件全文检索索引生成方法的一种具体的流程示意图;
图3为本发明一实施例提供的一种XML文件全文检索索引生成装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他的实施例,都属于本发明保护的范围。
图1示出了本发明一实施例提供的XML文件全文检索索引生成方法的流程示意图,如图1所示,本实施例的XML文件全文检索索引生成方法如下所述。
101、根据待处理XML文件,生成XML筛选配置文件。
其中,所述XML筛选配置文件设置了待处理XML文件中的待索引元素。
在具体应用中,所述待处理XML文件,可以包括:外部系统推送给信息系统的XML文件,或信息系统内部每隔预设时间段产生的XML文件等。
102、根据待处理XML文件,生成索引生成配置文件;
其中,所述索引生成配置文件设置了待处理XML文件中的待索引元素的索引映射关系。
103、读取XML筛选配置文件,获取待处理XML文件中的待索引元素。
104、读取索引生成配置文件,将待处理XML文件中的待索引元素按照所述索引生成配置文件中预设的索引映射关系进行索引,生成索引文件。
可理解的是,本实施例生成的索引可以直接被程序检索使用。
本发明的XML文件全文检索索引生成方法,通过先根据待处理XML文件生成XML筛选配置文件和索引生成配置文件,再读取XML筛选配置文件获取待处理XML文件中的待索引元素,读取索引生成配置文件,利用全文检索工具将待处理XML文件中的待索引元素按照索引生成配置文件中预设的索引映射关系进行索引,生成索引文件,能够对XML文件自动生成全文检索的索引,用户只需要修改XML筛选配置文件和索引生成配置文件,就可以达到自动化索引XML的目的,比现有技术更简洁、方便。
在具体应用中,上述步骤101,可包括:
根据待处理XML文件,利用Xpath技术,生成XML筛选配置文件;
相应地,上述步骤103,包括:
读取XML筛选配置文件,利用Xpath技术,获取待处理XML文件中的待索引元素;其中,所述XML筛选配置文件预先利用Xpath技术设置了待处理XML文件中的待索引元素。
可理解的是,XPath即为XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言,XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力,可以认为Xpath是专门为XML提供的小型检索语言。
利用Xpath技术,获取待处理XML文件中的待索引元素,能够准确快速的定位到Xml文件(文档)中有哪些元素要进行索引化,为后续的实际索引话提供数据支持。
在具体应用中,本实施例所述XML筛选配置文件除设置了待处理XML文件中的待索引元素之外,还为每一待索引元素指定对应的资源代号,例如,下面的配置片段,表示属性name=title的doc元素将被进行索引,资源代号为title:
<xmlFilters>
<xmlFilter code="titleFitler"><xpath>//doc[@name='title']</xpath></xmlFilter>
</xmlFilters>
在具体应用中,上述步骤104,可包括:
读取索引生成配置文件,利用全文检索工具将待处理XML文件中的待索引元素按照所述索引生成配置文件中预设的索引映射关系进行索引,生成索引文件。
其中,所述全文检索工具,可以包括:Lucene等。Lucene是一个全文检索技术的的一个开源实现,在本实施例中可以作为用来提供全文检索的工具,但全文检索工具不止lucene一种,本实施例并不对其进行限制。
在具体应用中,本实施例所述索引生成配置文件设置了待处理XML文件中的待索引元素的索引映射关系,例如,下面的配置片段表示,在上述XML筛选配置文件中的code为titleFitler的Filter会被生成一个索引,索引名称为title,生成的索引被存储到D盘的index目录:
<indexs dir="d:\\index">
<index code="title"type='string'><xmlFilterCode>titleFitler
</xmlFilterCode></index>
</indexs>
在具体应用中,本实施例所述方法的具体流程也可以进一步如图2所示。
本实施例的XML文件全文检索索引生成方法,能够对XML文件自动生成全文检索的索引,比现有技术更简洁、方便。
图3示出了本发明一实施例提供的一种XML文件全文检索索引生成装置的结构示意图,如图3所示,本实施例的XML文件全文检索索引生成装置,包括:配置文件生成器1和索引生成器2;
所述配置文件生成器1,包括:第一生成模块11和第二生成模块12;
所述第一生成模块11,用于根据待处理XML文件,生成XML筛选配置文件;
所述第二生成模块12,用于根据待处理XML文件,生成索引生成配置文件;
所述索引生成器2,包括:元素获取模块21和索引生成模块22;
所述元素获取模块21,用于读取XML筛选配置文件,获取待处理XML文件中的待索引元素;
所述索引生成模块22,用于读取索引生成配置文件,将待处理XML文件中的待索引元素按照所述索引生成配置文件中预设的索引映射关系进行索引,生成索引文件;
其中,所述XML筛选配置文件设置了待处理XML文件中的待索引元素;所述索引生成配置文件设置了待处理XML文件中的待索引元素的索引映射关系。
在具体应用中,所述待处理XML文件,包括:外部系统推送给信息系统的XML文件,或信息系统内部每隔预设时间段产生的XML文件。
在具体应用中,所述XML筛选配置文件还为每一待索引元素指定对应的资源代号。
在具体应用中,所述第一生成模块11,可具体用于
根据待处理XML文件,利用Xpath技术,生成XML筛选配置文件;
相应地,所述元素获取模块21,具体用于
读取XML筛选配置文件,利用Xpath技术,获取待处理XML文件中的待索引元素。
在具体应用中,所述索引生成模块22,可具体用于
读取索引生成配置文件,利用全文检索工具将待处理XML文件中的待索引元素按照所述索引生成配置文件中预设的索引映射关系进行索引,生成索引文件。
其中,所述全文检索工具,可包括:Lucene等。
可理解的是,本实施例生成的索引可以直接被程序检索使用。
本实施例的索引生成器,能够对XML文件自动生成全文检索的索引,用户只需要修改XML筛选配置文件和索引生成配置文件,就可以达到自动化索引XML的目的,比现有技术更简洁、方便。
本实施例的索引生成器,可以用于执行前述图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种XML文件全文检索索引生成方法,其特征在于,包括:
根据待处理XML文件,生成XML筛选配置文件;
根据待处理XML文件,生成索引生成配置文件;
读取XML筛选配置文件,获取待处理XML文件中的待索引元素;
读取索引生成配置文件,将待处理XML文件中的待索引元素按照所述索引生成配置文件中预设的索引映射关系进行索引,生成索引文件;
其中,所述XML筛选配置文件设置了待处理XML文件中的待索引元素;所述索引生成配置文件设置了待处理XML文件中的待索引元素的索引映射关系。
2.根据权利要求1所述的方法,其特征在于,所述根据待处理XML文件,生成XML筛选配置文件,包括:
根据待处理XML文件,利用Xpath技术,生成XML筛选配置文件;
相应地,所述读取XML筛选配置文件,获取待处理XML文件中的待索引元素,包括:
读取XML筛选配置文件,利用Xpath技术,获取待处理XML文件中的待索引元素。
3.根据权利要求1所述的方法,其特征在于,所述读取索引生成配置文件,将待处理XML文件中的待索引元素按照所述索引生成配置文件中预设的索引映射关系进行索引,生成索引文件,包括:
读取索引生成配置文件,利用全文检索工具将待处理XML文件中的待索引元素按照所述索引生成配置文件中预设的索引映射关系进行索引,生成索引文件。
4.根据权利要求3所述的方法,其特征在于,所述全文检索工具,包括:Lucene。
5.根据权利要求1所述的方法,其特征在于,所述待处理XML文件,包括:外部系统推送给信息系统的XML文件,或信息系统内部每隔预设时间段产生的XML文件。
6.一种XML文件全文检索索引生成装置,其特征在于,包括:配置文件生成器和索引生成器;
所述配置文件生成器,包括:第一生成模块和第二生成模块;
所述第一生成模块,用于根据待处理XML文件,生成XML筛选配置文件;
所述第二生成模块,用于根据待处理XML文件,生成索引生成配置文件;
所述索引生成器,包括:元素获取模块和索引生成模块;
所述元素获取模块,用于读取XML筛选配置文件,获取待处理XML文件中的待索引元素;
所述索引生成模块,用于读取索引生成配置文件,将待处理XML文件中的待索引元素按照所述索引生成配置文件中预设的索引映射关系进行索引,生成索引文件;
其中,所述XML筛选配置文件设置了待处理XML文件中的待索引元素;所述索引生成配置文件设置了待处理XML文件中的待索引元素的索引映射关系。
7.根据权利要求6所述的装置,其特征在于,所述第一生成模块,具体用于
根据待处理XML文件,利用Xpath技术,生成XML筛选配置文件;
相应地,所述元素获取模块,具体用于
读取XML筛选配置文件,利用Xpath技术,获取待处理XML文件中的待索引元素。
8.根据权利要求6所述的装置,其特征在于,所述索引生成模块,具体用于
读取索引生成配置文件,利用全文检索工具将待处理XML文件中的待索引元素按照所述索引生成配置文件中预设的索引映射关系进行索引,生成索引文件。
9.根据权利要求8所述的装置,其特征在于,所述全文检索工具,包括:Lucene。
10.根据权利要求6所述的装置,其特征在于,所述待处理XML文件,包括:外部系统推送给信息系统的XML文件,或信息系统内部每隔预设时间段产生的XML文件。
CN201610148056.0A 2016-03-15 2016-03-15 Xml文件全文检索索引生成方法及装置 Pending CN107193849A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610148056.0A CN107193849A (zh) 2016-03-15 2016-03-15 Xml文件全文检索索引生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610148056.0A CN107193849A (zh) 2016-03-15 2016-03-15 Xml文件全文检索索引生成方法及装置

Publications (1)

Publication Number Publication Date
CN107193849A true CN107193849A (zh) 2017-09-22

Family

ID=59870772

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610148056.0A Pending CN107193849A (zh) 2016-03-15 2016-03-15 Xml文件全文检索索引生成方法及装置

Country Status (1)

Country Link
CN (1) CN107193849A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115910316A (zh) * 2022-09-08 2023-04-04 杭州脉兴医疗科技有限公司 一种基于电子病历推断发病时间的方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101393551A (zh) * 2007-09-17 2009-03-25 鸿富锦精密工业(深圳)有限公司 专利全文检索的索引建立系统及方法
CN101609460A (zh) * 2009-07-22 2009-12-23 中国科学院地理科学与资源研究所 一种支持异构地学数据资源的检索方法及检索系统
CN101620633A (zh) * 2008-07-04 2010-01-06 软件股份公司 用于在xml数据库管理系统中生成索引的方法和系统
CN103123650A (zh) * 2013-03-06 2013-05-29 同方知网(北京)技术有限公司 一种基于整数映射的xml数据库全文索引方法
CN103136304A (zh) * 2011-12-05 2013-06-05 北大方正集团有限公司 条目的处理方法和装置
CN104216966A (zh) * 2014-08-25 2014-12-17 浪潮软件股份有限公司 一种支持多种方式创建索引的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101393551A (zh) * 2007-09-17 2009-03-25 鸿富锦精密工业(深圳)有限公司 专利全文检索的索引建立系统及方法
CN101620633A (zh) * 2008-07-04 2010-01-06 软件股份公司 用于在xml数据库管理系统中生成索引的方法和系统
CN101609460A (zh) * 2009-07-22 2009-12-23 中国科学院地理科学与资源研究所 一种支持异构地学数据资源的检索方法及检索系统
CN103136304A (zh) * 2011-12-05 2013-06-05 北大方正集团有限公司 条目的处理方法和装置
CN103123650A (zh) * 2013-03-06 2013-05-29 同方知网(北京)技术有限公司 一种基于整数映射的xml数据库全文索引方法
CN104216966A (zh) * 2014-08-25 2014-12-17 浪潮软件股份有限公司 一种支持多种方式创建索引的方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115910316A (zh) * 2022-09-08 2023-04-04 杭州脉兴医疗科技有限公司 一种基于电子病历推断发病时间的方法

Similar Documents

Publication Publication Date Title
US11568013B2 (en) Methods and systems for providing a search service application
US20090187550A1 (en) Specifying relevance ranking preferences utilizing search scopes
US20200026913A1 (en) Blockwise extraction of document metadata
CN108334628A (zh) 一种新闻事件聚类的方法、装置、设备和储存介质
US10878020B2 (en) Automated extraction tools and their use in social content tagging systems
US9069769B2 (en) Creating or modifying an ordered trail of links to pages and/or documents
CN104133772A (zh) 一种自动生成测试数据的方法
US12086194B2 (en) Methods and systems for building search service application
KR20130049111A (ko) 분산 처리를 이용한 포렌식 인덱스 방법 및 장치
US20140040233A1 (en) Organizing content
WO2017142519A1 (en) Content classes for object storage indexing systems
US20110107198A1 (en) Information processing apparatus, storage medium, and information processing method
US20100036821A1 (en) File Uploading Method with Function of Abstracting Index Information in Real Time and Web Storage System Using the Same
CN107193849A (zh) Xml文件全文检索索引生成方法及装置
Halaschek-Wiener et al. A Flexible Approach for Managing Digital Images on the Semantic Web.
US9342586B2 (en) Managing and using shareable search lists
CN102141912B (zh) 一种处理多类引擎Widget的方法及装置
CN105488170B (zh) 一种erp系统的信息管理方法及装置
Patil et al. An innovative approach to classify and retrieve text documents using feature extraction and Hierarchical clustering based on ontology
Zapilko et al. Applying linked data technologies in the social sciences
US9256608B2 (en) Mapping user content to folders in a file system
US20130117330A1 (en) Retaining corporate memory
CN117891992B (zh) 数据爬取方法、装置、电子设备和存储介质
US9060203B2 (en) Personalized categorization of television programming
Geißner Modeling institutional research data repositories using the DCAT3 Data Catalog Vocabulary

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170922