CN101799805A

CN101799805A - 文件检索方法及其系统

Info

Publication number: CN101799805A
Application number: CN200910007312A
Authority: CN
Inventors: 邓菁; 张华�; 朱璇; 史媛媛
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Priority date: 2009-02-11
Filing date: 2009-02-11
Publication date: 2010-08-11

Abstract

提供一种文件检索方法及其系统。所述文件检索方法包括：输入至少一个用户查询；检索与所述用户查询匹配的文件；选择所述匹配的文件，根据选择的文件调用预先训练的多个语言模型；计算所述选择的文件相对于每个语言模型的复杂度分数，并将所述复杂度分数表示为文件的复杂度向量，用以对文件进行分类；输出经过分类的文件。

Description

文件检索方法及其系统

技术领域

本发明涉及一种自动检索文件的方法及其系统，尤其涉及一种通过语言模型来对文件进行检索的方法及其系统。

背景技术

近来，随着检索技术的不断发展，检索准确度越来越高，检索范围也变得越来越宽。传统上，搜索引擎通过使用用户输入的关键字来计算文件的关键字出现频率，并按照该频率来输出文件。也就是说，关键字出现频率越高，文件的相关度就越大。

同时，由于基于关键字频率将检索的文件显示给用户，因此用户无法得知这些文件的内容，必须由用户逐个浏览这些文件以寻找需要的文件，因此无法快速获取需要的文件。

此外，使用关键字检索的文件没有根据其内容很好地被分类，不能直观地将文件之间的相关程度和类别显示给用户，从而给用户带来了很大的不便。

发明内容

本发明的目的在于提供一种文件检索方法，所述方法不需要复杂的处理而通过利用预先训练的语言模型对检索的文件进行分类并输出给用户，从而用户可直观地找到需要的文件，极大地方便了用户。

本发明的另一目的在于提供一种文件检索系统，所述系统不需要复杂的系统配置而通过利用预先训练的语言模型对检索的文件进行分类并输出给用户，从而用户可直观地找到需要的文件，极大地方便了用户。

本发明的一方面在于提供一种文件检索方法，所述方法包括：输入至少一个用户查询；检索与所述用户查询匹配的文件；选择所述匹配的文件，根据选择的文件调用预先训练的多个语言模型；计算所述选择的文件相对于每个语言模型的复杂度分数，并将所述复杂度分数表示为文件的复杂度向量，用以对文件进行分类；输出经过分类的文件。

所述检索步骤可包括调用网页爬虫程序来读取相关网页，用以检索与所述用户查询匹配的文件。

所述分类步骤可包括将文件的复杂度向量输入到支持向量机SVM分类器以对文件进行分类。

所述文件检索方法，可进一步包括步骤：基于分类的文件的相似度和所述分类的文件所属网站的重要度对所述分类的文件进行排列。

所述文件检索方法，可进一步包括步骤：选择所述分类的文件之一和相应语言模型之一来计算复杂度分数，并将所述复杂度分数与预定阀值进行比较；当所述复杂度分数大于预定阀值时，训练新的语言模型，并且当所述复杂度分数小于或等于预定阀值时，对所述相关语言模型进行再训练。

本发明的另一方面提供一种网络信息检索系统，包括：输入模块，用以输入至少一个用户查询；检索模块，用以检索与所述用户查询匹配的文件；文件分类模块，用以选择所述匹配的文件，根据选择的文件调用预先训练的多个语言模型，计算所述选择的文件相对于每个语言模型的复杂度分数，并将所述复杂度分数表示为文件的复杂度向量，用以对文件进行分类；输出模块，用以输出检索和分类的文件。

所述检索模块可调用网页爬虫程序来读取相关网页，用以检索与所述用户查询匹配的文件。

所述文件分类模块可将文件的复杂度向量输入到支持向量机SVM分类器以对文件进行分类。

所述文件检索系统，可进一步包括：排列模块，用以基于分类的文件的相似度和所述分类的文件所属网站的重要度对所述分类的文件进行排列。

所述文件检索系统，可进一步包括：语言模型更新模块，用以选择所述分类的文件之一和相应语言模型之一来计算复杂度分数，并将所述复杂度分数与预定阀值进行比较，当所述复杂度分数大于预定阀值时，训练新的语言模型，并且当所述复杂度分数小于或等于预定阀值时，对所述相关语言模型进行再训练。

附图说明

通过下面结合附图进行的详细描述，本发明的上述和其他目的和特点将会变得更加清楚，其中：

图1是示出根据本发明示例性实施例的文件检索系统的框图；

图2是示出根据本发明示例性实施例的文件检索方法的流程图；

图3是示出根据本发明示例性实施例的文件分类模块执行的分类的示例；

图4是根据本发明示例性实施例的文件检索结果的示例；

图5是根据本发明另一示例性实施例的文件检索系统的框图；

图6是根据本发明另一示例性实施例的文件检索方法的流程图。

具体实施方式

以下，参照附图来详细说明本发明的实施例。

图1是示出根据本发明示例性实施例的文件检索系统的框图。参照图1，根据本发明示例性实施例的文件检索系统100包括：输入模块102、检索模块104、文件分类模块106和输出模块108。

用户通过输入模块102输入用户查询以检索需要的文件。

检索模块104检索与所述用户查询匹配的文件。检索模块104可由检索引擎通过调用网页爬虫(web crawler)来实现文件的检索，并且确定用户查询和文件是否匹配。如果用户查询和文件匹配，则将该文件作为匹配的文件，如果用户查询和文件不匹配，则忽略该文件。

文件分类模块106选择所述匹配的文件，根据选择的文件调用预先训练的多个语言模型，计算所述选择的文件相对于每个语言模型的复杂度分数，并将所述复杂度分数表示为文件的复杂度向量，用以对文件进行分类。

下面将详细描述文件分类模块106的功能。

文件分类模块106从匹配的文件选择一个文件，并调用与选择的文件相应的一组语言模型。该语言模型组是用训练语料预先训练的语言模型组(例如，财经类的语言模型、娱乐类的语言模型或体育类的语言模型等)。然后，文件分类模块106利用以下等式1计算该文件对相应的一个语言模型的复杂度分数：

PP = 2^{- P (W) \log_{2} P (W)}

等式1

其中，P(W)为词序列(句子)W＝{w_i，i＝1，2，...，M)的概率，如等式2所示：

P (W) = Π_{i = 1}^{M} P (w_{i} | w_{i - n + 1}, . . ., w_{i - 1})

等式2

其中，(w_i-n+1，...w_i-1)为曾经使用过的词序列。

文件分类模块106将对一组语言模型的复杂度分数表示为复杂度向量V＝{PP_i，i＝1，2，...，N)，以将每个文件表示为一个N维复杂度向量。此外，文件分类模块106可使用支持向量机(SVM)分类器对这些向量进行分类，但本发明不限于此，可使用本领域公知的任何其他分类器。

输出模块108输出通过输入用户查询来检索和分类的文件。

图2是示出根据本发明示例性实施例的文件检索方法的流程图。参照图2，在步骤S201，用户通过输入模块102输入至少一个用户查询。在步骤S202，检索模块104检索与所述用户查询匹配的文件。具体说来，检索模块104可由检索引擎通过调用网页爬虫来实现文件的检索，并且确定用户查询和文件是否匹配。如果用户查询和文件匹配，则将该文件作为匹配的文件，如果用户查询和文件不匹配，则忽略该文件。应注意，本发明不限于此，可使用现有技术中的任何检索方法对文件进行检索。接着，在步骤S203，文件分类模块106选择所述匹配的文件，根据选择的文件调用预先训练的多个语言模型。这是为了将文件与多个语言模型联系起来，以随后根据文件的内容对文件进行分类。在步骤S204，文件分类模块106计算所述选择的文件相对于每个语言模型的复杂度分数，并将所述复杂度分数表示为文件的复杂度向量，从而对文件进行分类。由于通过步骤S203和步骤S204分类的文件是基于其内容来进行分类的，因此能够保证很好的分类准确度。这里，文件分类模块106可使用支持向量机(SVM)分类器对这些向量进行分类，但本发明不限于此，可使用本领域公知的任何其他分类器。在步骤S205，输出模块108将经过分类的文件输出给用户。

图3是示出根据本发明示例性实施例的文件分类模块执行的分类的示例。如图3所示，与用户查询“三星Q1”匹配的文件经过文件分类模块106分类为4个类型，分别是“参数”、“评估”、“好的评价”和“不好的评价”。但是本发明不限于此，文件分类模块106可根据用户的喜好将文件分类为各种不同类型。

图4是根据本发明示例性实施例的文件检索结果的示例。如图4所示，基于输入的用户查询“三星Q1”，经过根据本发明示例性实施例的文件检索方法检索的文件通过输出模块108输出为5种类型，分别是“产品照片和名称”、“产品参数”、“性能评估”、“来自用户的好的评价”和“来自用户的不好的评价”。但是本发明不限于此，根据本发明示例性实施例的文件检索方法可将文件分类为各种不同类型并以各种方式显示这些文件。

以下参照图5和图6来描述本发明另一示例性实施例。

图5是根据本发明另一示例性实施例的文件检索系统的框图。参照图4，根据本发明另一示例性实施例的文件检索系统500包括：输入模块502、检索模块504、文件分类模块506、输出模块508、排列模块510和语言模型更新模块512。在此，输入模块502、检索模块504和文件分类模块506的功能与图1中的输入模块102、检索模块104和文件分类模块106相似，为了避免混淆，在此不再详细阐述。

排列模块510基于分类的文件的相似度和所述分类的文件所属网站的重要度对所述分类的文件进行排列。具体地，可利用以下等式3计算在经过文件分类模块406分类的属于同一类别的文件之间的相似度：

Sim (V_{1}, V_{2}) = \sqrt{Σ_{i =1}^{N} {(P P_{i}^{1} - P P_{i}^{2})}^{2}}

等式4

其中，Sim(V₁，V₂)为两个文件的复杂度向量V₁和V₂的相似度。PP为文件对语言模型的复杂度分数。

此外，排列模块510还计算文件的重要度，该重要度取决于作为文件来源的网站的重要度，即，新浪、搜狐等网站的重要度相对较高。而且，排列单元510基于文件的相似度和重要度来排列文件。具体地，排列模块510可对计算出的文件的相似度和重要度进行加权求和。输出模块508可按照计算出的加权求和来输出这些文件。即，可将加权求和较大的文件优先输出。但是本发明不限于此，还可将这些文件按照加权求和的大小进行等级排列并输出。

语言模型更新模块512，选择所述分类的文件之一和相应语言模型之一来计算复杂度分数，并将所述复杂度分数与预定阀值进行比较，当所述复杂度分数大于预定阀值时，训练新的语言模型，并且当所述复杂度分数小于或等于预定阀值时，对所述相关语言模型进行再训练。

图6是根据本发明另一示例性实施例的文件检索方法的流程图。在图6中，步骤S601至步骤S604与图2中的步骤S201至步骤S204相似，为了避免混淆，在此不再进行详细描述。

在步骤S605，排列模块510基于分类的文件的相似度和所述分类的文件所属网站的重要度对在步骤S604分类的文件进行排列。然后，在步骤S606，输出模块508将经过分类和排列的文件提供给用户。

在步骤S607，语言模型更新模块512选择所述分类的文件之一和相应语言模型之一来计算复杂度分数，并将所述复杂度分数与预定阀值进行比较。当所述复杂度分数大于预定阀值时，训练新的语言模型，并将该新的语言模型提供给文件分类模块506，以便文件分类模块506随后使用该新的语言模型。当所述复杂度分数小于或等于预定阀值时，对所述相关语言模型进行再训练。

由于根据本发明示例性实施例的文件检索方法和系统基于文件的内容来进行检索和分类，因此可大大提高检索的文件的准确性和有效性。

同时，通过将文件进行分类并按照文件之间的相关度和其所属网站的重要性来输出文件，可将这些文件直观地提供给用户，从而给用户提供了方便。

此外，通过不断地更新语言模型，对语言模型进行再训练，为用户以后的检索提供了方便。

根据本发明示例性实施例的文件检索方法和系统不仅可应用于网页信息检索，还可应用于文件分类、问题回答、文件汇总等。本发明不限于上述实施例，在不脱离本发明的精神和范围的情况下，可以对本发明进行形式和细节上的各种改变。

Claims

1.一种文件检索方法，所述方法包括步骤：

输入至少一个用户查询；

检索与所述用户查询匹配的文件；

选择所述匹配的文件，根据所选择的文件调用预先训练的多个语言模型；

计算所选择的文件相对于每个语言模型的复杂度分数，并将所述复杂度分数表示为文件的复杂度向量，用以对文件进行分类；

输出经过分类的文件。

2.如权利要求1所述的方法，其特征在于所述检索步骤为：

调用网页爬虫程序来读取相关网页，用以检索与所述用户查询匹配的文件。

3.如权利要求1所述的方法，其特征在于所述分类步骤为：

将文件的复杂度向量输入到支持向量机SVM分类器以对文件进行分类。

4.如权利要求1所述的方法，其特征在于进一步包括步骤：

基于分类的文件的相似度和所述分类的文件所属网站的重要度对所述分类的文件进行排列。

5.如权利要求1所述的方法，其特征在于进一步包括步骤：

选择所述分类的文件之一和相应语言模型之一来计算复杂度分数，并将所述复杂度分数与预定阀值进行比较；

当所述复杂度分数大于预定阀值时，训练新的语言模型，并且当所述复杂度分数小于或等于预定阀值时，对所述相关语言模型进行再训练。

6.一种网络信息检索系统，包括：

输入模块，用以输入至少一个用户查询；

检索模块，用以检索与所述用户查询匹配的文件；

文件分类模块，用以选择所述匹配的文件，根据选择的文件调用预先训练的多个语言模型，计算所述选择的文件相对于每个语言模型的复杂度分数，并将所述复杂度分数表示为文件的复杂度向量，以对文件进行分类；

输出模块，用以输出检索和分类的文件。

7.如权利要求6所述的系统，其特征在于检索模块调用网页爬虫程序来读取相关网页，用以检索与所述用户查询匹配的文件。

8.如权利要求6所述的系统，其特征在于文件分类模块将文件的复杂度向量输入到支持向量机SVM分类器以对文件进行分类。

9.如权利要求6所述的系统，其特征在于进一步包括：

排列模块，用以基于分类的文件的相似度和所述分类的文件所属网站的重要度对所述分类的文件进行排列。

10.如权利要求6所述的系统，其中，还包括：

语言模型更新模块，用以选择所述分类的文件之一和相应语言模型之一来计算复杂度分数，并将所述复杂度分数与预定阀值进行比较，当所述复杂度分数大于预定阀值时，训练新的语言模型，并且当所述复杂度分数小于或等于预定阀值时，对所述相关语言模型进行再训练。