CN102236706A

CN102236706A - 一种海量中文文件名快速模糊拼音查询方法

Info

Publication number: CN102236706A
Application number: CN 201110163943
Authority: CN
Inventors: 袁新宇; 李莹
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2011-06-17
Filing date: 2011-06-17
Publication date: 2011-11-09
Anticipated expiration: 2031-06-17
Also published as: CN102236706B

Abstract

本发明公开了一种海量中文文件名快速模糊拼音查询方法，包括如下步骤：1）判断查询字符串是否为中文拼音，如果为中文拼音则根据模糊拼音规则进行转换并扩展形成新的查询字符串，如果不是中文拼音则查询字符串不变；2）将上述查询字符串执行SetBackwardOracleMatching算法构建模式串识别的神谕有限自动机；3）遍历文件名数据库，对所述文件名数据库中存储的文件名进行预过滤；4）在文件名数据库中对步骤3）预过滤后的文件名执行SBOM算法匹配，对所有符合条件的查询结果进行排序并返回查询结果具有海量文件下的查询速度快、支持中文快速查询、支持模糊拼音精确查询等特点。

Description

一种海量中文文件名快速模糊拼音查询方法

技术领域

本发明涉及计算机系统应用技术领域，具体来讲涉及一种支持中文模糊拼音快速查询计算机中所有文件的方法。

背景技术

随着存储系统容量的不断增长，计算机系统中保存的文件也越来越多。现在的普通个人笔记本电脑都会有超过100G的存储，保存着超过百万计的文件。如何从这些海量文件中快速找到符合查询要求的文件成为一个越来越重要的问题。

海量信息查询通常采用全文检索的方法。但是全文检索对文件名不合适，对中文文件名就更不合适。全文检索的必要条件是有一个合适的分词系统，然后根据分词结果对原始文档进行倒排序索引。但是文件名因为历史习惯/程序兼容性等多方面原因，基本没有采用空格进行分词，所以对西文文件名也无法建立倒排序索引，至于中文则更不存在类似西文空格那样的天然的分词方案。

目前的快速文件名查询方法往往基于快速字符串匹配算法。比如GNU Grep是最知名的字符串精确匹配程序，其采用内循环展开的Boyer-Moore算法。AGrep程序则是一个知名的近似串匹配程序，其采用Wu-Manber算法。

现有的针对文件名的快速查询方法中所存在的不足有：

1、针对海量文件名的查询速度不理想。即使针对个人用的普通电脑，利用Windows自带的文件名查询工具进行查询耗时也在1分钟以上。如果针对云计算的存储中心或者企业级的文件存储服务器，查询速度会更慢。

2、文件名索引时太过简单。现有的文件名快速查询工具，比如linux下的locate以及windows下的locate32都建立文件名索引库。但是这些索引库只是简单的保存所有的文件名，没有对文件名进行任何预处理。

3、对中文模糊拼音查询支持不好。现有的知名文件查询工具中还没有支持中文模糊拼音查询的，一些信息检索系统中虽然有模糊拼音匹配功能，但是基于的是距离向量的近似字符串匹配方法。针对模糊拼音匹配问题，近似字符串匹配方法在性能上和精确度上都不如基于factor的多模式字符串匹配方法。

发明内容

本发明的目的是针对上述技术问题，提出一种用于快速查询所有匹配文件的支持中文模糊拼音查询的方法。

为了解决上述技术问题，本发明的技术方案如下：

一种海量中文文件名快速模糊拼音查询方法，包括如下步骤：

1）判断查询字符串是否为中文拼音，如果为中文拼音则根据模糊拼音规则进行转换并扩展形成新的查询字符串，如果不是中文拼音则查询字符串不变；

2）将上述查询字符串执行Set Backward Oracle Matching算法构建模式串识别的神谕有限自动机；

3）遍历文件名数据库，对所述文件名数据库中存储的文件名进行预过滤；

所述预过滤包括如下步骤：

在所述文件名数据库中将文件名长度少于查询字符串长度的文件名进行第一次过滤；然后判断查询字符串中是否有“.”符号，如果不包含“.”符号，则在查询时只匹配文件名的前缀，如果包含“.”符号，则匹配时以“.”符号的位置为分割匹配文件名的后缀，将后缀不匹配的文件名进行第二次过滤；

4）在文件名数据库中对步骤3）预过滤后的文件名执行SBOM算法匹配，对所有符合条件的查询结果进行排序并返回查询结果。

作为可选方案，所述模糊拼音规则默认设置为“zh=z, ch=c, sh=s, ing=in, ang=an, eng=en”，并可根据用户自主设定。

作为可选方案，所述文件名数据库中至少存储有文件名、文件路径、文件大小、文件时间和预处理信息，所述预处理信息包括文件类型、文件名中是否包含中文以及中文汉字个数、最后一个”.”符号在文件名中的位置；所述文件名、所述文件路径、所述文件大小、所述文件时间和所述预处理信息是通过对文件系统扫描处理后得到的。

作为可选方案，所述步骤1）中根据模糊拼音规则进行转换并扩展的步骤包括：将所述中文拼音根据所述模糊拼音规则进行转换，然后将转换后的拼音与对应的汉字进行关联扩展。

作为可选方案，所述文件名数据库将根据所述文件系统中的文件信息变化实时更新。

一种海量中文文件名快速模糊拼音查询系统，包括文件名索引库构建模块、字符串快速匹配算法模块、汉字模糊拼音处理模块和初始化拼音汉字关系对应表；所述文件名索引库构建模块用于实现扫描文件系统并建立文件名数据库系统；所述字符串快速匹配算法模块用于将查询字符串执行Set Backward Oracle Matching 算法并构建模式串识别的神谕有限自动机以及将查询字符串与文件名数据库中存储的文件名执行SBOM算法匹配；所述汉字模糊拼音处理模块用于将中文拼音根据模糊拼音规则进行转换，然后将转换后的拼音与对应的汉字进行关联扩展，形成新的查询字符串；所述初始化拼音汉字关系对应表用于存储所述关联关系并按汉字词频排序。

本发明的有益效果在于：

1、海量文件下的查询速度快。

首先由于建立实时的文件名数据库，对文件的查询无需遍历整个文件系统。所以该方法的查询速度远远高于windows自带的文件查询系统，其次由于针对文件名的特性进行预处理，通常情况下可以减少30%左右的字符串匹配次数。因为文件名通常是8.3格式，而查询条件中往往没有”.”符号，所以完全可以只在前缀8中查询文件名是否符合要求。此外根据后缀名可以在用户选择了文件类型的情况下快速过滤掉不符合类型的文件，并且采用高效的基于factor的多模式字符串匹配算法，性能上明显由类似Grep程序中采用的Boyer-Moore算法。

2、支持中文快速查询。通常的文件名查询系统将中文和英文同等对待。但是中文字库大且文件名中包含中文的少，所以对汉字进行单独处理能够明显加快查询性能。比如操作系统自带的大量文件都不包含中文，通过对文件名中的中文字符进行简单计数就能够在进行中文查询时能够快速排除这些文件。

3、支持模糊拼音精确查询。常见的模糊拼音查询方法采用的是基于距离向量的近似字符串匹配方法。比如用户输入”shihu”，近似字符串匹配查询的是在改变一个字母的情况下也能匹配的所有串。这样虽然也能实现模糊拼音，却包括的太多不需要的结果。比如shahu和sihu都是只改变一个字母，但shahu明显不属于期望的查询结果集。近似字符串匹配的正确用途是防止用户输入错误，比如shihu错误输入为hsihu。模糊拼音查询的本质类似于英文大小写无关查询。比如“A”能匹配“a”，但是不能匹配“b”，虽然它们之间的距离都是1。同样的”shihu”在模糊拼音规则下只能匹配”sihu”。所以模糊拼音查询其实就是待查询字符串扩展后的多字符串精确匹配问题，而不是一个近似匹配问题。本方法采用模糊拼音到词语的对应关系表扩展查询字符串，并采用基于factor的多模式字符串匹配算法，能在一次匹配过程中同时匹配多个字符串，显著提高了模糊拼音查询的精确度和速度。

附图说明

图1 系统开发、部署与运行过程；

图2 文件名匹配方法流程图。

具体实施方式

下面将结合附图和具体实施例对本发明做进一步的说明。

1.首先开发文件名查询系统，该系统的核心部分包括：文件名数据库索引构建模块、汉字模糊拼音处理模块、字符串快速匹配模块，其中汉字字库（词库）构建拼音到词语的对应关系表的构建在开发时完成，以减少系统部署和运行时的开销。对应关系表中根据词频确定关系权重。

2.当将系统安装到用户端计算机时，要求用户输入自己的模糊拼音规则。安装时同时完成文件系统的扫描以建立文件名数据库。该扫描步骤也可以在系统安装后第一次启动时完成。对文件名进行扫描处理时，以“.”为分隔符将文件名分为两部分，既前缀名和后缀名，对后缀名可以进行文件类型分析，对前缀名对中文字数进行计数。当用户端计算机系统资源充足时，可对文件名按多种排序方式进行排序后保存。文件名查询和全文查询的一个区别是排序方式。文件名查询后的结果往往需要按多种条件排序：如匹配度、文件名拼音顺序、文件大小、文件创建时间、文件修改时间、文件最后访问时间等。对常用排序进行预先排序能够减少查询后的排序步骤的时间开销。

3.当系统运行时，启动文件系统监视进程动态监控文件系统变化，并相应的更新文件名数据库。

4.当用户输入查询字符串时，首先判断该查询字符串是否为中文拼音。如果是则采用用户自定义的模糊拼音规则转换并扩展查询字符串。针对转换并扩展后的字符串执行基于factor的多模式字符串匹配的SBOM算法预处理步骤。SBOM算法全称为Set Backward Oracle Matching 算法。当然也可以采用其它的基于factor的多模式字符串匹配算法，如Multiple Shift-Or算法。基于factor的算法在性能上优于基于Prefix的算法（比如KMP算法）和基于suffix的算法（比如Boyer-Moore算法）。然后遍历所有的文件名数据库，首先根据文件名长度过滤不符合要求的文件，接着根据中文字数过滤不符合要求的文件，最后采用和预处理步骤同样的字符串匹配算法过滤出符合条件的文件。如果没有对文件名数据库进行预排序，则根据用户的排序条件排序查询结果集。最后返回符合要求的查询结果集。

其具体的流程如图1所示：

1、一种海量中文文件名快速模糊拼音查询系统的三个主要模块的开发以及初始化拼音汉字关系对应表。三个主要模块为：

a) 文件名数据库索引构建模块开发，实现扫描文件系统构建文件名数据库系统功能。

b) 字符串快速匹配算法模块开发，基于Set Backward Oracle Matching (SBOM)算法实现。

c) 汉字模糊拼音处理模块开发，实现模糊拼音到汉字对应关系；

d) 初始化拼音汉字关系对应表，格式为：拼音->汉字列表，比如”hanzi”->”汉字，汉子，寒子，汗渍，憨子，韩资”。汉字列表按词频排序。

2、部署海量中文文件名快速模糊拼音查询系统：

a) 系统安装时要求用户输入自己的模糊拼音规则。如果用户不输入，则采用缺省的模糊拼音规则：“zh=z, ch=c, sh=s, ing=in, ang=an, eng=en”。根据模糊拼音扩展拼音汉字关系对应表。

b) 部署时同时完成文件系统的扫描以建立文件名数据库。文件名数据库中至少保持如下字段的信息：文件名、文件路径、文件大小、文件时间、预处理信息（文件类型、文件名中是否包含中文以及中文汉字个数、最后一个”.”符号在文件名中的位置）等。对文件名进行扫描处理时，首先找到最后一个”.”符号在文件名中的位置，然后以“.”为分隔符将文件名分为两部分，即前缀名和后缀名。对后缀名可以进行文件类型分析，比如jpg/jpeg/gif/bmp都属于图片类型、doc/docx/xls/xlsx/ppt/pptx/pps等属于office文档类型等。如果是linux文件系统，则采用file程序调用判断文件类型。对前缀名中文字数进行计数。

3、系统安装完成后运行时实时监控文件系统中文件信息的变更。对于windows操作系统，采用ReadDirectoryChanges系统调用监控文件系统的变更；对于linux类操作系统，采用inotify系统调用监控文件系统的变更。文件系统中文件信息的变更实时更新的文件名索引数据库中。

4、查询时，采用如图2所示的方法查询符合条件的文件。主要包括以下步骤：

a) 当用户输入查询字符串时，首先判断该查询字符串是否为中文拼音。如果是则采用用户自定义的模糊拼音规则扩展查询字符串。比如”hanzi”会被识别为汉语拼音，然后转换为”hanzi,hangzi”，然后根据转换后拼音字符查询拼音汉字关系对应表，从而扩展得到包括汉字在内的新查询字符串，例如“hanzi,hangzi，汉字，汉子，寒子，汗渍，憨子，韩资”

b) 针对扩展后的字符串执行Set Backward Oracle Matching (SBOM)算法预处理步骤。该预处理步骤主要是构建一个模式串识别的一个神谕有限自动机。具体算法伪代码如下：

构造神谕(Oracle)自动机步骤：(输入P = {p ¹, p ², …, p ^r}，为待匹配的多个扩展后查询字符串)

{

OR_trie ← Trie(P) 单词查找树

δ_OR 是它的转移函数

将对应于整个字符串p ⁱ 的状态为终结符

I ← OR_trie 的根

S _OR (I) ← θ

For Current in 文件遍历序列 Do

Parent ←OR_trie 当前节点的父节点

σ ← 从Parent 到 Current 的标记

Down ← S _OR (Parent)

While Down ≠ θ AND δ_OR (Down, σ) = θ Do

δ_OR (Down, σ) ← Current

Down ← S _OR (Down)

End of while

If Down ← θ Then

S _OR (Current) ← δ_OR (Down, σ)

Else S _OR (Current) ← I

End of if

End of for

}

c) 遍历所有的文件名数据库，查询符合查询条件的文件。主要步骤包括：

1.首先根据文件名长度过滤不符合要求的文件。比如待查询串”hanzi”有五个字符，而文件名为四个字符”xxxx”，则不管是哪四个字符都不可能匹配。

2.接着根据中文字数过滤不符合要求的文件，其原理同上。

3.判断待查询串中是否包含”.”符号，根据判断结果采取不同的查询步骤。如果不包含”.”符号，则在查询时只匹配文件前缀名。如果包含”.”符号，则匹配时以”.”符号的位置为分割分别匹配文件名数据库中文件名的后缀和前缀。比如查询串”hanzi”不包含”.”符号，那么可以只匹配文件名前缀。对于常见的8.3文件格式，只需要匹配8位前缀名，能够减少1/3的查询时间。如果待查询串包含”.”符号，比如“xx.jpg”，那么在匹配文件名时，先匹配后缀部分，如果后缀名符合，再匹配前缀部分。

4.对于扩展后的文件名多模式字符串执行SBOM算法进行匹配，其具体算法伪代码如下：

SBOM 算法：（输入参数：P = {p ¹, p ², ..., p ^r}为待匹配的多个扩展后查询字符串，T = t ₁t₂ ... t _n代表文件名,n代表文件名长度）

{

min ← 待匹配串的最大长度

pos ← 0 //当前比较位置

While pos ≤ n - min Do

Current ←Or 的初始状态

j ← min

While j ≥ 1 AND Current ≠ θ Do

Current ← δ_Or (Current, t _pos + j)

j ← j - 1

End of while

If Current ≠ θ AND j = 0 并且

T _{pos + 1 ... pos + min} = L (Current)^rv

将F(current)中的模式串和文件名一一匹配

j ← 1

End of if

pos ← pos + j

End of while

}

d) 对所有符合条件的查询结果进行排序并返回查询结果。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明构思的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围内。

Claims

1.一种海量中文文件名快速模糊拼音查询方法，其特征在于，包括如下步骤：

所述预过滤包括如下步骤：

2.根据权利要求1所述的一种海量中文文件名快速模糊拼音查询方法，其特征在于，所述模糊拼音规则默认设置为“zh=z, ch=c, sh=s, ing=in, ang=an, eng=en”，并可根据用户自主设定。

3.根据权利要求1所述的一种海量中文文件名快速模糊拼音查询方法，其特征在于，所述文件名数据库中至少存储有文件名、文件路径、文件大小、文件时间和预处理信息，所述预处理信息包括文件类型、文件名中是否包含中文以及中文汉字个数、最后一个”.”符号在文件名中的位置；所述文件名、所述文件路径、所述文件大小、所述文件时间和所述预处理信息是通过对文件系统扫描处理后得到的。

4.根据权利要求1所述的一种海量中文文件名快速模糊拼音查询方法，其特征在于，所述步骤1）中根据模糊拼音规则进行转换并扩展的步骤包括：将所述中文拼音根据所述模糊拼音规则进行转换，然后将转换后的拼音与对应的汉字进行关联扩展。

5.根据权利要求1所述的一种海量中文文件名快速模糊拼音查询方法，其特征在于，所述文件名数据库将根据所述文件系统中的文件信息变化实时更新。

6.一种海量中文文件名快速模糊拼音查询系统，其特征在于，包括文件名索引库构建模块、字符串快速匹配算法模块、汉字模糊拼音处理模块和初始化拼音汉字关系对应表；所述文件名索引库构建模块用于实现扫描文件系统并建立文件名数据库系统；所述字符串快速匹配算法模块用于将查询字符串执行Set Backward Oracle Matching 算法并构建模式串识别的神谕有限自动机以及将查询字符串与文件名数据库中存储的文件名执行SBOM算法匹配；所述汉字模糊拼音处理模块用于将中文拼音根据模糊拼音规则进行转换，然后将转换后的拼音与对应的汉字进行关联扩展，形成新的查询字符串；所述初始化拼音汉字关系对应表用于存储所述关联关系并按汉字词频排序。