CN102567364A

CN102567364A - 文件搜索系统及方法

Info

Publication number: CN102567364A
Application number: CN2010106051649A
Authority: CN
Inventors: 李忠一; 叶建发; 卢秋桦; 卢俊锜
Original assignee: Hongfujin Precision Industry Shenzhen Co Ltd; Hon Hai Precision Industry Co Ltd
Current assignee: Hongfujin Precision Industry Shenzhen Co Ltd; Hon Hai Precision Industry Co Ltd
Priority date: 2010-12-24
Filing date: 2010-12-24
Publication date: 2012-07-11

Abstract

一种文件搜索系统及方法，该方法包括步骤：接收用户输入的搜索表达式；将所述搜索表达式拆解成一个或多个核心词条；对拆解出的每个核心词条作相关词条扩展；将扩展出的相关词条与拆解出的核心词条加入查询项目；根据所述查询项目执行搜索任务，获取一个文件集；计算该文件集中的每个文件与查询项目的相似度，并根据计算出的相似度对该文件集进行排序，以所述排序显示该文件集。利用本发明可以获取全面的搜索结果，并将用户感兴趣的搜索结果显示在最前面。

Description

文件搜索系统及方法

技术领域

本发明涉及一种文件搜索系统及方法。

背景技术

全文检索技术(Full Text Search)，或简称为搜索技术，已被广泛的应用搜寻引擎中。通过让使用者输入关键词，到全文数据库中找出所有包含关键词的文件，进而大大节省使用者从大量文件中(如数百万笔文件)搜寻特定文件的时间。然而，现在大部分的全文检索技术有以下缺点。

其一，当使用者想要搜寻某个脑海中模糊且不具体的概念时，很难下达准确的关键词搜索。例如，使用者想要了解“云端并行计算”的架构，对云端计算有一定了解的使用者当然会加入“hadoop”、“Map/Reduce”等关键词做搜寻，但对没基础知识的一般使用者而言，他可能必须先输入云端计算进行第一次检索，并从检索内容中找到“hadoop”、“Map/Reduce”等与云端计算有关连的词汇才能做第二次搜索，导致平白浪费不少时间。

其二，即便是使用者准确地下达关键词做搜索，但也只能找出包含有该关键词的文件，其它未包含该关键词但概念上与该关键词相关联的文件无法回馈给使用者。例如，即使使用者输入“hadoop”做搜索，想找出跟云端并行计算有关的文件，但却无法找到仅有出现“hbase”、“zookeeper”等词汇的文件，即便这些文件跟“hadoop”有高度相关，但因为文件内没有出现关键词“hadoop”，因此无法检索到该文件。

其三，搜寻结果的排序完全没有参考到关键词的概念而仅仅是关键词本身，这样很容易会导致使用者高度感兴趣的文章却被系统排到最后面。例如，使用者输入“云端计算”关键词，但某篇文章只出现“云端计算”一次，其余段落都在讨论云端计算下的研究项目，这篇文章可能是使用者想知道的信息，却因为关键词出现次数过少而被排到后面，导致使用者必须浏览完前面几项的结果才能找到这篇文件。

上述全文检索技术的缺点会降低使用者在使用全文检索系统时的效率，并且使用传统的全文检索技术获得的搜索结果不全面，可能出现遗漏。

发明内容

鉴于以上内容，有必要提供一种文件搜索系统，其可获取全面的搜索结果，并对搜索结果进行排序，将用户感兴趣的搜索结果显示在最前面。

鉴于以上内容，还有必要提供一种文件搜索方法，其可获取全面的搜索结果，并对搜索结果进行排序，将用户感兴趣的搜索结果显示在最前面。

一种文件搜索系统，应用于计算装置中，该系统包括：

接收模块，用于接收用户输入的搜索表达式；

分词模块，用于将所述搜索表达式拆解成一个或多个核心词条；

扩展模块，用于对拆解出的每个核心词条作相关词条扩展；

搜索模块，用于将扩展出的相关词条与拆解出的核心词条加入查询项目；

所述搜索模块，还用于根据所述查询项目执行搜索任务，获取一个文件集；及

排序模块，用于计算该文件集中的每个文件与查询项目的相似度，并根据计算出的相似度对该文件集进行排序，以所述排序显示该文件集。

一种文件搜索方法，运行于计算装置中，该方法包括如下步骤：

接收用户输入的搜索表达式；

将所述搜索表达式拆解成一个或多个核心词条；

对拆解出的每个核心词条作相关词条扩展；

将扩展出的相关词条与拆解出的核心词条加入查询项目；

根据所述查询项目执行搜索任务，获取一个文件集；及

计算该文件集中的每个文件与查询项目的相似度，并根据计算出的相似度对该文件集进行排序，以所述排序显示该文件集。

前述方法可以由电子设备(如电脑)执行，其中该电子设备具有附带了图形用户界面(GUI)的显示屏幕、一个或多个处理器、存储器以及保存在存储器中用于执行这些方法的一个或多个模块、程序或指令集。在某些实施例中，该电子设备提供了包括无线通信在内的多种功能。

用于执行前述方法的指令可以包含在被配置成由一个或多个处理器执行的计算机程序产品中。

相较于现有技术，所述的文件搜索系统及方法，其可获取全面的搜索结果，并对搜索结果进行排序，将用户感兴趣的搜索结果显示在最前面，提高了使用者在使用全文检索系统时的效率。

附图说明

图1是服务器与客户端电脑的系统架构图。

图2是本发明服务器的结构示意图。

图3是文件搜索系统的功能模块图。

图4是本发明文件搜索方法的较佳实施例的流程图。

图5是一个文件集的具体实例。

图6是根据图5中的文件集获取的词条-文档矩阵的示意图。

图7是根据图6中的词条-文档矩阵分解得到的一个字向量矩阵示意图。

图8是根据图6中的词条-文档矩阵分解得到的一个对角矩阵示意图。

图9是根据图6中的词条-文档矩阵分解得到的一个文件向量矩阵示意图。

图10是将字向量矩阵、对角矩阵和文件向量矩阵降阶到k维向量空间的示意图。

图11是降阶处理后的字向量矩阵、对角矩阵和文件向量矩阵的示意图。

图12是将一个查询项目映射到降阶的k维向量空间，获取查询项目向量的示意图。

图13是一个比例缩放矩阵的示意图。

图14是对查询项目向量做缩放处理的示意图。

图15是对降阶处理后的文件向量矩阵做缩放处理的示意图。

主要元件符号说明

服务器	2
		客户端电脑	4
显示设备	20
		输入设备	22
存储器	23
		文件搜索系统	24
处理器	25
		接收模块	201
分词模块	202
		扩展模块	203
搜索模块	204
		排序模块	205

具体实施方式

如图1所示，是服务器与客户端电脑的系统架构图。在本实施例中，所述服务器2通过网络与一台或多台客户端电脑相连，本实施例以一台客户端电脑4为例进行说明。所述网络可以是企业内部网(Intranet)，也可以是互联网(Internet)或其它类型的通讯网络，如GPRS、Wi-Fi/WLAN、3G/WCDMA、3.5G/HSDPA等。

参阅图2所示，该服务器2包括通过数据总线相连的显示设备20、输入设备22、存储器23、文件搜索系统24和处理器25。可以理解，在其它实施例中，所述文件搜索系统24也可以设置于其它计算装置，如PDA(Personal Digital Assistant，个人数字助理)。

所述文件搜索系统24用于接收客户端电脑4传送的搜索表达式，将所述搜索表达式拆解成一个或多个核心词条(Core Term)，对每个核心词条作相关概念词条扩展，将扩展出的相关概念词条与核心词条加入查询项目(Query Term)，根据所述查询项目执行搜索任务，获取一个文件集(初始搜索结果)，计算该文件集中的每个文件与查询项目的相似度，并根据计算结果对该文件集进行排序，将排序后的文件集(新结果)传送给客户端电脑4。具体过程以下描述。

所述存储器23用于存储所述文件搜索系统24的程序代码等资料。所述显示设备20用于显示搜索结果，所述输入设备22用于输入管理人员设置的检索参数等(如见所表达式)。所述存储器23中还存储有核心词条字典(Core Term Dictionary)和相关词条字典(Related Term Dictionary)。在本实施例中，核心词条是指使用频率较高的词条，相关词条是指与核心词条有关联的词条(如近义词和同义词等)。举例而言，核心词条video的相关词条包括：video type、video encoding、video storage、video storage type及video data storage。

在本实施例中，所述文件搜索系统24可以被分割成一个或多个模块，所述一个或多个模块被存储在所述存储器23中并被配置成由一个或多个处理器(本实施例为一个处理器25)执行，以完成本发明。例如，参阅图3所示，所述文件搜索系统24被分割成接收模块201、分词模块202、扩展模块203、搜索模块204和排序模块205。本发明所称的模块是完成一特定功能的程序段，比程序更适合于描述软件在服务器2中的执行过程。

如图4所示，是本发明文件搜索方法的较佳实施例的流程图。

步骤S1，接收模块201接收用户输入的搜索表达式。在本实施例中，所述搜索表达式可以是一个句子，也可以是一个词组或其它关键字。

步骤S2，分词模块202将所述搜索表达式拆解成一个或多个核心词条。在本实施例中，所述分词模块202根据关键字输入顺序，将所述搜索表达式与相关词条字典中的每个相关词条进行比对，找出最长的匹配词条作为拆解后的核心词条。

算法为：

SearchWords＝{W₁，W₂，...W_n}

RW₁＝{RT₁，RT₂，...RT_m}：Related Term Set of W₁ from Related

Term Dictionary that contain W₁

CoreTerm＝null：CoreTerm Set

While(n＞0){

Term＝FindTerm(SearchWords)；

If(Term！＝null)

{

Search words＝SearchWords-Term；

n＝n-lengthof(Term)；

CoreTerm.add(Term)；

}

FindTerm(){

i＝2；

Term1＝W₁；

Term2＝Term1+W₁；

Boolean b＝false；

While(i＜n){

For(intj＝0；j＜m；j++){

If(RW_j contain Term2){

i++；

Term1＝Term2；

Term2+＝W₁；

b＝true；

Break；

}

If(b＝＝false){

If(term1＝＝W₁){return null；}

else{Return Term1；}

}

举例而言，假设搜索表达式为“video storage type communicationdevice”，则分词过程如下：

步骤一，读取搜索表达式中的第一个词条“video”，假设词条“video”的相关词条为：{video type，video encoding，video storage，video storage type，video data storage}，则最长的匹配词条为：videostorage type，将“video storage type”加入拆解后的核心词条集合，然后将搜索表达式变为“communication device”。

步骤二，读取搜索表达式中的下一个词条“communication”，假设词条“communication”的相关词条为：{communication system，communication network，communication device}，则最长的匹配词条为：communication device，将“communication device”加入拆解后的核心词条集合，然后结束拆解，则拆解后的核心词条为：{“videostorage type”，“communication device”}。

如果在相关词条字典中找不到最长的匹配词条，使之能将所述搜索表达式拆解成核心词条，则分词模块202根据关键字输入顺序，将所述搜索表达式与核心词条字典(Core Term Dictionary)中的每个词条进行比对，找出最长的匹配词条作为拆解后的核心词条，具体流程同在相关词条字典中的寻找最长匹配词条一样，在此不再赘述。

在本实施例中，如果用户输入关键字的顺序不同，则分词模块202将用户输入的搜索表达式拆解成不同的核心词条。例如，用户输入“java system”经过分词以后形成的核心词条(Core Term)为“java system”，而输入“system java”将得到两个核心词条“system”和“java”。

步骤S3，扩展模块203对拆解出的每个核心词条作相关词条扩展，算法如下：

SearchWords＝{W₁，W₂，...W_n}

RW₁＝{RT₁，RT₂，...RT_m}：Related Term Set of W₁ from Related

Term Dictionary that contain W₁

RelatedConcept＝null：Related Concept Set

for(i＝0；i＜n；i++)

{

for(each words in SearchWords)

{

for(each RT_j in RW₁)

{

RelatedTerm＝SearchWords.Replace(W₁，RT_j)；

Add RelatedTerm to RelatedConcept；

}

}；

举例而言，假设拆解出的一个核心词条为“video storage type”，则扩展过程如下：

步骤一，读取该拆解出的核心词条的第一个单词“video”，假设单词“video”的相关词条为：{digital storage media，stream ofvideo，digital video}，则将“digital storage media storage type”、“stream of video storage type”、“digital video storage type”加入扩展出的相关词条。

步骤二，读取该拆解出的核心词条的第二个单词“storage”，假设单词“storage”的相关词条为：{cache，storage medium，memorydevice}，则将“video cache type”、“video storage medium type”、“video memory device type”加入扩展出的相关词条。

步骤三，读取该拆解出的核心词条的第三个单词“type”，假设单词“type”的相关词条为：{cutting tip}，则将“video storage cuttingtip”加入扩展出的相关词条。

最后，扩展出的相关词条为：

{“digital storage media storage type”；

“stream of video storage type”；

“digital video storage type”；

“video cache type”；

“video storage medium type”；

“video memory device type”；

“video storage cutting tip”}

步骤S4，搜索模块204将扩展出的相关词条与拆解出的核心词条加入查询项目(Query Term)。

步骤S5，搜索模块204根据所述查询项目执行搜索任务，获取一个文件集，该文件集作为初始的搜索结果。

如前所述，如果用户输入相同的关键词，但输入的顺序不同，则产生的查询项目也会不同。因为，分词以后会产生不同的结果，再加入相关词的扩展差别可能会更大，进而影响到搜索结果和文件相关度排序。或者可以说，用户输入关键词的顺序与他所关心的搜索结果是有影响的。

步骤S6，排序模块205计算该文件集中的每个文件与查询项目的相似度，并根据计算出的相似度对该文件集进行排序，以所述排序显示该文件集。具体而言，排序模块205将查询项目与该文件集中的每个文件皆映射(map)为一个向量，假设定义文件i的向量为V_i，查询项目的向量为V_q，则文件与查询项目的相似度即为文件向量V_i与查询项目向量V_q的夹角的余弦值，其夹角越小或夹角的余弦值越大，则代表该文件与查询项目的相关性越大。在本实施例中，排序模块205将根据文件向量与查询项目向量的夹角由小到大的顺序，对该文件集进行排序。假设搜索模块204获取的文件集如图5所示，以下以一个实例详细描述步骤S6。

(1)排序模块205从图5的文件集内容中移除停用词(StopWords)，以获取一个词条-文档矩阵(Term-Document Matrix)A，该词条-文档矩阵A参见图6所示。所述停用词是指无实际意义的词，主要包括副词、虚词、语气词等，如“是”、“而是”、“的”等。

(2)排序模块205将该词条-文档矩阵A做奇异值分解(SingularValue Decomposition，SVD)，将该词条-文档矩阵A分解成三个矩阵的乘积形式，即A＝U_mxr∑_rxrV^T _rxn，其中矩阵U代表字向量矩阵，参阅图7所示，矩阵U中的每一行代表一个字向量(WordVector)。矩阵∑代表对角矩阵，参阅图8所示，矩阵∑中的值为奇异值(Singular Value)，并根据由大到小的顺序排列。矩阵V代表文件向量矩阵，参阅图9所示，矩阵V中的每一行代表一个文件向量(Document Vector)。

(3)排序模块205对上述分解成的字向量矩阵、对角矩阵和文件向量矩阵执行降阶处理，将分解成的字向量矩阵、对角矩阵和文件向量矩阵降阶到k维向量空间(参阅图10所示)。在本实施例中，k＝2。

(4)排序模块205获取降阶处理后的字向量矩阵U′、对角矩阵∑′和文件向量矩阵V′(参阅图11所示)。

(5)假设此时的查询项目为：“network”、“cloud”，排序模块205根据公式Q＝q^TU′，将该查询项目映射(map)到降阶的k维向量空间，获取查询项目向量Q。在本实施例中，k＝2。其中，公式Q＝q^TU′的详细描述参阅图12所示。

(6)排序模块205对降阶处理后的对角矩阵∑′开根号，得到一个比例缩放矩阵Scale Matrix(参阅图13所示)。

(7)排序模块205将查询项目向量Q以及降阶处理后的文件向量矩阵V′皆乘上比例缩放矩阵(Scale Matrix)做缩放处理，得到缩放查询项目向量Q_scale以及缩放文件向量矩阵V_scale。其中，查询项目向量Q缩放处理参见图14所示，降阶处理后的文件向量矩阵V′缩放处理参见图15所示。

(8)排序模块205利用向量内积，计算缩放查询项目向量Q_scale与缩放文件向量矩阵V_scale中每个缩放文件向量在k维向量空间(k＝2)的夹角，缩放文件向量与缩放查询项目向量的夹角越小，则代表该文件与查询项目越接近。

(9)排序模块205根据缩放文件向量与缩放查询项目向量的夹角由小到大的顺序，对所有缩放文件向量排序，再将缩放文件向量映射(map)到原本的文件，获取重新排序的文件集。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种文件搜索系统，应用于计算装置中，其特征在于，该系统包括：

接收模块，用于接收用户输入的搜索表达式；

扩展模块，用于对拆解出的每个核心词条作相关词条扩展；

2.如权利要求1所述的文件搜索系统，其特征在于，所述分词模块将所述搜索表达式拆解成一个或多个核心词条包括：

根据所述搜索表达式中关键字的输入顺序，将所述搜索表达式与一个相关词条字典中的每个相关词条进行比对，找出最长的匹配词条作为拆解后的核心词条；及

如果在相关词条字典中找不到最长的匹配词条，则根据关键字的输入顺序，将所述搜索表达式与一个核心词条字典中的每个词条进行比对，找出最长的匹配词条作为拆解后的核心词条。

3.如权利要求1所述的文件搜索系统，其特征在于，所述相似度是指：每个文件的文件向量与查询项目向量的夹角的余弦值。

4.如权利要求1所述的文件搜索系统，其特征在于，所述排序模块计算该文件集中的每个文件与查询项目的相似度包括：

从所述文件集内容中移除停用词，以获取一个词条-文档矩阵；

将该词条-文档矩阵做奇异值分解，获取一个字向量矩阵、一个对角矩阵及一个文件向量矩阵；

将分解成的字向量矩阵、对角矩阵和文件向量矩阵降阶到k维向量空间，获取降阶处理后的字向量矩阵、对角矩阵和文件向量矩阵；

将查询项目映射到降阶的k维向量空间，获取查询项目向量；

对降阶处理后的对角矩阵开根号，得到一个比例缩放矩阵；

将查询项目向量以及降阶处理后的文件向量矩阵皆乘上比例缩放矩阵做缩放处理，得到缩放查询项目向量以及缩放文件向量矩阵；

利用向量内积，计算缩放查询项目向量与缩放文件向量矩阵中每个缩放文件向量在k维向量空间的夹角；及

根据缩放文件向量与缩放查询项目向量的夹角由小到大的顺序，对所有缩放文件向量排序，再将缩放文件向量映射到原本的文件，获取重新排序的文件集。

5.如权利要求4所述的文件搜索系统，其特征在于，所述k维向量空间为二维向量空间。

6.一种文件搜索方法，运行于计算装置中，其特征在于，该方法包括如下步骤：

接收用户输入的搜索表达式；

将所述搜索表达式拆解成一个或多个核心词条；

对拆解出的每个核心词条作相关词条扩展；

将扩展出的相关词条与拆解出的核心词条加入查询项目；

根据所述查询项目执行搜索任务，获取一个文件集；及

7.如权利要求6所述的文件搜索方法，其特征在于，所述将所述搜索表达式拆解成一个或多个核心词条的步骤包括：

8.如权利要求6所述的文件搜索方法，其特征在于，所述相似度是指：每个文件的文件向量与查询项目向量的夹角的余弦值。

9.如权利要求6所述的文件搜索方法，其特征在于，所述计算该文件集中的每个文件与查询项目的相似度的步骤包括：

将查询项目映射到降阶的k维向量空间，获取查询项目向量；

对降阶处理后的对角矩阵开根号，得到一个比例缩放矩阵；

10.如权利要求9所述的文件搜索方法，其特征在于，所述k维向量空间为二维向量空间。