CN101154241A

CN101154241A - 一种数据检索方法及一种数据检索系统

Info

Publication number: CN101154241A
Application number: CNA2007101757574A
Authority: CN
Inventors: 曹浩; 高立琦; 刘挺
Original assignee: Harbin Institute of Technology; Beijing Kingsoft Software Co Ltd; Beijing Jinshan Digital Entertainment Technology Co Ltd
Current assignee: Harbin Institute of Technology; Beijing Kingsoft Software Co Ltd; Beijing Jinshan Digital Entertainment Technology Co Ltd
Priority date: 2007-10-11
Filing date: 2007-10-11
Publication date: 2008-04-02

Abstract

本发明公开了一种数据检索方法，包括：确定检索所需的数据源；提取所述数据源的字段，并针对各个字段设置配置参数，所述配置参数包括存储方式参数和索引方式参数；依据所述配置参数创建所述数据源的索引文件；根据用户的检索需求在所述索引文件中获取相应的检索结果。应用本发明无需针对每个检索需求重新编写程序和创建新的检索系统，有效节省了资源成本和开发成本；此外，本发明在检索过程中，可以包含用于设置检索结果显示格式的显示格式参数，当需要对页面进行修改时，只需要调整该显示格式参数即可，使美工人员和相关程序人员的工作分离开来，有效提高了检索结果显示的灵活性。

Description

一种数据检索方法及一种数据检索系统

技术领域

本发明涉及数据检索领域，特别涉及一种用于网站数据检索的数据检索方法及数据检索系统。

背景技术

众所周知，利用索引查询技术可以迅速从数据源中找到符合条件的数据，而不必扫描整个数据源，从而可以有效提高检索效率和系统性能，随着网站信息量的增多和产品的网络化转移，这种索引查询技术常用于网站数据检索中。

在实际中，网站数据检索的需求是各种各样的，例如，检索需要针对网页内容进行；检索需要针对论坛资源进行；检索需要针对数据库的内容进行等，可以理解的是，不同的检索需求，可能对应不同的数据格式，在这种情况下，现有技术的处理方法是，针对不同数据格式的检索需求单独编写程序，例如，根据某个检索需求建立索引，将检索的过程封装成API；对于新的检索需求，则重新建立新的索引，再重新组织API。可以看出，这种现有技术的处理方法需要针对新的检索需求重新编写程序，当需要实现新的检索时，则需要重新编写一套检索程序，创建新的检索系统，所花费的代价与成本极高。

而且，在实际中，这种现有技术的处理方法往往是将检索结果和数据与显示页面的代码混合在一起处理，当结果显示需求发生变化时，还需要修改原来的程序，例如，当页面设计修改时，还需要程序开发人员协作美工人员对相应的原始程序做相应修改，不仅严重浪费成本，还不利于检索结果显示的灵活性。

因此，本领域技术人员迫切需要发展出一种可以有效节省成本、方便显示结果调整的数据检索方法及数据检索系统。

发明内容

本发明所要解决的技术问题是提供一种数据检索方法，用以节省检索实现的成本，并提高检索结果显示的灵活性。

本发明还提供了一种数据检索系统，用以保证上述方法在实际中的实现及应用。

为解决上述技术问题，本发明实施例公开了一种数据检索方法，包括：

确定检索所需的数据源；

提取所述数据源的字段，并针对各个字段设置配置参数，所述配置参数包括存储方式参数和索引方式参数；

依据所述配置参数创建所述数据源的索引文件；

根据用户的检索需求在所述索引文件中获取相应的检索结果。

优选的是，所述配置参数位于配置文件或配置表中。

优选的是，所述索引文件具有索引文件标识，所述检索结果的获取步骤进一步包括：

根据用户的检索需求生成检索信息，所述检索信息包括索引文件标识、检索字段信息和关键词；

根据所述检索信息获取相应的检索结果。

优选的是，所述检索结果为根据所述索引文件的检索字段信息查找到的，包含所述关键词的记录。

优选的是，所述的方法，还包括：

以XML格式返回所述检索结果。

优选的是，所述检索信息还包括检索结果显示位置信息和显示数量信息，所述的方法还包括：

解析所述XML格式的检索结果；

按照所述检索结果显示位置信息和显示数量信息显示所述检索结果。

本发明实施例还公开了一种数据检索系统，包括：

确定单元，用于确定检索所需的数据源；

提取单元，用于提取所述数据源的字段；

配置单元，用于针对各个字段设置配置参数，所述配置参数包括存储方式参数和索引方式参数；

索引创建单元，用于依据所述配置参数创建所述数据源的索引文件；

检索单元，用于根据用户的检索需求在所述索引文件中获取相应的检索结果。

优选的是，所述配置参数位于配置文件或配置表中。

优选的是，所述索引文件具有索引文件标识，所述检索单元进一步包括：

生成子单元，用于根据用户的检索需求生成检索信息，所述检索信息包括索引文件标识、检索字段信息和关键词；

获取子单元，用于根据所述检索信息获取相应的检索结果。

优选的是，所述的系统，还包括：

返回单元，用于以XML格式返回所述检索结果。

优选的是，所述检索信息还包括检索结果显示位置信息和显示数量信息，所述的系统还包括：

解析单元，用于解析所述XML格式的检索结果；

显示单元，用于按照所述检索结果显示位置信息和显示数量信息显示所述检索结果。

与现有技术相比，本发明实施例具有以下优点：

首先，应用本发明针对不同的检索需要，只需要设置相应数据源的配置参数，然后按照该配置参数建立索引即可，从而无需针对每个检索需求重新编写程序和创建新的检索系统，有效节省了资源成本和开发成本；

再者，所述配置参数可由本领域技术人员根据实际情况任意设置，具有较好的可扩展性；

此外，本发明在检索过程中，可以包含显示格式参数，该参数用于设置检索结果的显示格式，当需要对页面进行修改时，只需要调整该显示格式参数即可，使美工人员和相关程序人员的工作分离开来，有效提高了检索结果显示的灵活性；

最后，本发明对于服务提供商来说，技术实现简单，无技术障碍，无特殊保密算法，成本和风险较低。

附图说明

图1是本发明的一种数据检索方法实施例的流程图；

图2是本发明的一种数据检索系统实施例的结构框图；

图3是应用图2所示的优选实施例进行数据检索的流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例的核心构思之一在于，在实现新的检索需求时，提取其可变因素，将其设为配置参数，使用户可以根据需求灵活设置。然后，依据相应的配置参数建立索引或更新索引，即针对不同的检索需要，只需要修改相应的配置文件即可，有效节省了资源成本和开发成本；本发明还通过将检索结果的显示和检索过程分离开，当检索结果的显示需求发生变化时，也只需要调整检索信息中显示格式参数，即可获得所需的检索结果显示，而无需修改原来的程序。

参考图1，示出了本发明的一种数据检索方法实施例的流程图，具体可以包括以下步骤：

步骤101、确定检索所需的数据源；

步骤102、提取所述数据源的字段，并针对各个字段设置配置参数；

其中，所述配置参数包括存储方式参数和索引方式参数。在实际中，所述存储方式参数和索引方式参数可以由本领域技术人员根据实际情况进行设置，例如，所述存储方式参数可以设置为：0表示不存储字段值(即检索时不能获得相应的字段值)，1表示存储字段值(即检索时可以获得相应的字段值)，2以压缩的方式存储字段值；所述索引方式参数可以设置为：0表示对字段不进行分词，1表示对字段进行分词处理。

当然，上述设置方式仅仅用于举例，本领域技术人员根据需要自行设置所述配置参数或添加配置参数都是可行的，本发明对此不需要进行限定。

为便于对所述配置参数的管理、设置和修改，优选的是，所述配置参数可以位于配置文件或配置表中。

步骤103、依据所述配置参数创建所述数据源的索引文件；

在实际中，可以按照所述配置参数读取所述数据源的数据，创建其索引文件。优选的是，所述索引文件可以采用Lucene创建。公知的是，Lucene是一个基于Java的文检索工具包，可以利用它来为应用程序加入索引和检索功能。Lucene的索引机制是使用各种解析器对各种不同类型的文档进行解析。比如对于HTML文档，HTML解析器会做一些预处理的工作，如过滤文档中的HTML标签等等。HTML解析器的输出的是文本内容，接着Lucene的分词器(Analyzer)从文本内容中提取出索引项以及相关信息，如索引项的出现频率。接着Lucene的分词器把这些信息写到索引文件中。

如，一段采用Lucene创建索引的代码示例为：

private String[]keywords＝{″20001895″，″20001896″}；

private String[]unindexed＝{″Red star″，″good morning″}；

private String[]unstored＝{″I am a programer″，″you areprogrammer，too″，}；

private String[]text1＝{″programer″，″morning″}；

private String[]text2＝{″200606″，″200609″}；

private String[]text3＝{″/Computers/red″，″/Computers/star″}；

private Directory dir；

protected void AddDocuments()

{

string indexDir＝″index″；

dir＝FSDirectory.GetDirectory(indexDir，true)；

IndexWriter writer＝new IndexWriter(dir，GetAnalyzer()，true)；

for(int i＝0；i＜keywords.Length；i++)

{

Document doc＝new Document()；

doc.Add(Field.Keyword(″isbn″，keywords[i]))；

doc.Add(Field.UnIndexed(″title″，unindexed[i]))；

doc.Add(Field.UnStored(″contents″，unstored[i]))；

doc.Add(Field.Text(″subject″，text1[i]))；

doc.Add(Field.Text(″pubmonth″，text2[i]))；

doc.Add(Field.Text(″category″，text3[i]))；

writer.AddDocument(doc)；

}

writer.Optimize()；

writer.Close()；

}

当然，本领域技术人员采用其它索引创建方法，或在不同的程序语言环境下，采用不同的程序语言创建索引都是可行的，本发明对此不作限制。

需要说明的是，应用本实施例在首次实现检索需求时，初始设置相应的配置参数、生成相应的索引文件后，在以后实现新的检索需要时，只需要对相应的配置参数进行修改，进而更新相应的索引文件即可，从而可以有效节省资源成本和开发成本。

步骤104、根据用户的检索需求在所述索引文件中获取相应的检索结果。

在实际应用中，所述索引文件都会设置相应的索引文件标识，在这种情况下，本实施例可以通过以下子步骤获取检索结果：

子步骤A1、根据用户的检索需求生成检索信息，所述检索信息包括索引文件标识、检索字段信息和关键词；

子步骤A2、根据所述检索信息获取相应的检索结果。

具体而言，所述检索结果为根据所述索引文件的检索字段信息查找到的，包含所述关键词的记录。

需要说明的是，所述关键词包括单字和/或词组成的关键词，优选的是，所述检索字段信息包括检索字段、检索字段是否出现的与/或关系、检索字段值是否需要分词和返回结果字段。对于分词，众所周知的是，英文是以词为单位的，词和词之间是靠空格隔开，而中文是以字为单位，句子中所有的字连起来才能描述一个意思。例如，英文句子I am a student，用中文则为：“我是一个学生”。计算机可以很简单通过空格知道student是一个单词，但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词，就是中文分词。例如，我是一个学生，分词的结果是：我/是/一个/学生。

下面介绍一些常用的分词方法：

1、基于字符串匹配的分词方法：是指按照一定的策略将待分析的汉字串与一个预置的机器词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功(识别出一个词)。实际使用的分词系统，都是把机械分词作为一种初分手段，还需通过利用各种其它的语言信息来进一步提高切分的准确率。

2、基于特征扫描或标志切分的分词方法：是指优先在待分析字符串中识别和切分出一些带有明显特征的词，以这些词作为断点，可将原字符串分为较小的串再来进行机械分词，从而减少匹配的错误率；或者将分词和词类标注结合起来，利用丰富的词类信息对分词决策提供帮助，并且在标注过程中又反过来对分词结果进行检验、调整，从而提高切分的准确率。

3、基于理解的分词方法：是指通过让计算机模拟人对句子的理解，达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。它通常包括三个部分：分词子系统、句法语义子系统、总控部分。在总控部分的协调下，分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断，即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。

4、基于统计的分词方法：是指，中文信息中由于字与字相邻共现的频率或概率能够较好的反映成词的可信度，所以可以对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息，以及计算两个汉字X、Y的相邻共现概率。互现信息可以体现汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时，便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计，不需要切分词典。

为保证数据可以被唯一标识，优选的是，本实施例还可以包括以下步骤：

以XML(eXtensible Markup Language，扩展标记语言)格式返回所述检索结果。

为提高检索结果显示的灵活性，优选的是，所述检索信息还可以包括检索结果显示位置信息和显示数量信息，在这种情况下，本实施例所述的方法还可以包括以下步骤：

解析所述XML格式的检索结果；

可以理解的是，本领域技术人员采用其它语言格式返回检索结果，然后采用相应方法解析所述格式也是可行的，本发明对此不需要进行限定。

为使本领域技术人员更好地理解本发明，以下通过具体实例对本发明的数据检索过程进行说明。

假设有一个检索需求为：

A、根据用户的查询关键词在某个论坛数据库的“内容”字段中进行检索；

按照本发明实施例的处理过程如下：

步骤a1、确定检索所需的数据源为该论坛数据库；

步骤a2、提取该论坛数据库的字段：帖子id、作者、时间、标题和内容；

步骤a3、针对各个字段设置配置参数为：

#

帖子id

1

0

#

作者

1

0

#

时间

1

0

#

标题

1

#

内容

1

其中，“#”号标识字段的起始；字段名后的第一个标识为存储方式参数，其具体定义为：0表示不存储字段值(即检索时不能获得相应的字段值)，1——表示存储字段值(即检索时可以获得相应的字段值)；字段名后的第二个标识为索引方式参数，其具体定义为：0表示对字段不进行分词，1表示对字段进行分词处理。

步骤a4、将上述配置参数存储于配置文件bbs.conf中。

当然，本领域技术人员也可以将所述配置参数存储于配置表bbs.conf中，其具体存储格式由本领域技术人员任意设置都是可行的，本发明对此不需要进行限定。

步骤a5、依据所述配置文件创建所述数据源的索引文件bbs_index；

使用指定的数据源并结合配置文件建立索引，通过读取配置文件获取如何处理数据源中数据的信息，例如，对于“内容”这个字段，在配置文件中设定的是1，1，表示对“内容”中的内容，在索引中进行存储和分词处理。统一检索系统就对数据源中的所有“内容”对应的数据在索引中进行存储和分词。

步骤a6、根据用户的检索需求生成检索信息：start＝0:num＝10:from_field＝内容-1-查询关键词-1:return_field＝作者-时间-标题-内容：index＝bbs_index；

其中，start为检索结果显示位置信息，0表示从第一个检索结果记录开始显示；num为检索结果显示数量信息，10表示在当前页面显示的检索结果记录条数为10条；from_field为检索字段信息，分别为，字段名-是否出现-字段值-字段值是否需要分词，其中，“是否出现”的值为：0表示or(或)关系，1表示and(和)关系；“字段值是否需要分词”的值为：0表示不需要进行分词，1表示需要分词；以及，return_field为返回结果字段；index为索引文件标识。

显然，上述检索信息清楚构造了本例的检索需求。

步骤a7、采用Lucene根据所述检索信息在所述索引文件中进行检索，获得相应的检索结果，并将所述检索结果以XML的格式返回；

步骤a8、解析所述XML格式的检索结果，按照所述检索结果显示位置信息和显示数量信息显示所述检索结果。

假设有另一个检索需求为：

B、根据用户的查询关键词在某个新闻网站的数据库中的“内容”和“标题”字段中进行检索；

按照本发明实施例的处理过程如下：

步骤b1、确定检索所需的数据源为该新闻网站数据库；

步骤b2、提取该论坛数据库的字段：发布时间，标题，内容，作者；

步骤b3、针对各个字段修改配置文件的内容为：

#

发布时间

1

0

#

标题

1

#

内容

1

#

作者

1

0

其中，“#”号标识字段的起始；字段名后的第一个标识为存储方式参数，其具体定义为：0表示不存储字段值(即检索时不能获得相应的字段值)，1表示存储字段值(即检索时可以获得相应的字段值)；字段名后的第二个标识为索引方式参数，其具体定义为：0表示对字段不进行分词，1表示对字段进行分词处理。对该配置文件重新命名为news.conf。

步骤b4、依据所述配置文件更新所述索引文件为news_index；

步骤b5、根据用户的检索需求生成检索信息：start＝0:num＝10:from_field＝内容-0-查询关键词-1-标题-0-查询关键词-1:return_field＝发布时间-标题-内容：index＝news_index；

步骤b6、采用Lucene根据所述检索信息在所述索引文件中进行检索，获得相应的检索结果，并将所述检索结果以XML的格式返回；

步骤b7、解析所述XML格式的检索结果，按照所述检索结果显示位置信息和显示数量信息显示所述检索结果。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

参考图2，示出了本发明的一种数据检索系统实施例的结构框图，具体可以包括以下单元：

确定单元201，用于确定检索所需的数据源；

提取单元202，用于提取所述数据源的字段；

配置单元203，用于针对各个字段设置配置参数；

其中，所述配置参数包括存储方式参数和索引方式参数；

索引创建单元204，用于依据所述配置参数创建所述数据源的索引文件；

检索单元205，用于根据用户的检索需求在所述索引文件中获取相应的检索结果。

优选的是，所述配置参数位于配置文件或配置表中。

在实际应用中，所述索引文件具有索引文件标识，在这种情况下，所述检索单元可以包括以下子单元：

获取子单元，用于根据所述检索信息获取相应的检索结果。

优选的是，在本实施例中，还可以包括以下单元：

返回单元，用于以XML格式返回所述检索结果。

作为另一实施例，所述检索信息还包括检索结果显示位置信息和显示数量信息，在这种情况下，本实施例还可以包括以下单元：

解析单元，用于解析所述XML格式的检索结果；

参考图3，示出了应用图2所示的优选实施例进行数据检索的流程图，具体可以包括以下步骤：

步骤301、确定单元确定检索所需的数据源；

步骤302、提取单元提取所述数据源的字段；

步骤303、配置单元针对各个字段设置配置参数；

所述配置参数包括存储方式参数和索引方式参数；此外，所述配置参数还可以存储于配置文件或配置表中。

步骤304、索引创建单元依据所述配置参数创建所述数据源的索引文件；

步骤305、检索单元根据用户的检索需求在所述索引文件中获取相应的检索结果。

具体而言，可以通过以下子步骤进行检索：

子步骤S1、生成子单元根据用户的检索需求生成检索信息；

其中，所述检索信息包括索引文件标识、检索字段信息和关键词。

子步骤S2、获取子单元根据所述检索信息获取相应的检索结果。

在本实施例中，所述检索结果为根据所述索引文件的检索字段信息查找到的，包含所述关键词的记录。

对于系统实施例而言，由于其基本相应于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明可以用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。此外，本发明还可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通讯网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

以上对本发明所提供的一种数据检索方法及一种数据检索系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种数据检索方法，其特征在于，包括：

确定检索所需的数据源；

依据所述配置参数创建所述数据源的索引文件；

2.如权利要求1所述的方法，其特征在于，所述配置参数位于配置文件或配置表中。

3.如权利要求1或2所述的方法，其特征在于，所述索引文件具有索引文件标识，所述检索结果的获取步骤进一步包括：

根据所述检索信息获取相应的检索结果。

4.如权利要求3所述的方法，其特征在于，所述检索结果为根据所述索引文件的检索字段信息查找到的，包含所述关键词的记录。

5.如权利要求4所述的方法，其特征在于，还包括：

以XML格式返回所述检索结果。

6.如权利要求5所述的方法，其特征在于，所述检索信息还包括检索结果显示位置信息和显示数量信息，所述的方法还包括：

解析所述XML格式的检索结果；

7.一种数据检索系统，其特征在于，包括：

确定单元，用于确定检索所需的数据源；

提取单元，用于提取所述数据源的字段；

8.如权利要求7所述的系统，其特征在于，所述配置参数位于配置文件或配置表中。

9.如权利要求7或8所述的系统，其特征在于，所述索引文件具有索引文件标识，所述检索单元进一步包括：

获取子单元，用于根据所述检索信息获取相应的检索结果。

10.如权利要求9所述的系统，其特征在于，还包括：

返回单元，用于以XML格式返回所述检索结果。

11.如权利要求10所述的系统，其特征在于，所述检索信息还包括检索结果显示位置信息和显示数量信息，所述的系统还包括：

解析单元，用于解析所述XML格式的检索结果；