CN101799805A - 文件检索方法及其系统 - Google Patents

文件检索方法及其系统 Download PDF

Info

Publication number
CN101799805A
CN101799805A CN200910007312A CN200910007312A CN101799805A CN 101799805 A CN101799805 A CN 101799805A CN 200910007312 A CN200910007312 A CN 200910007312A CN 200910007312 A CN200910007312 A CN 200910007312A CN 101799805 A CN101799805 A CN 101799805A
Authority
CN
China
Prior art keywords
file
classification
complexity
retrieval
language model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200910007312A
Other languages
English (en)
Inventor
邓菁
张华�
朱璇
史媛媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Samsung Telecommunications Technology Research Co Ltd
Samsung Electronics Co Ltd
Original Assignee
Beijing Samsung Telecommunications Technology Research Co Ltd
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Samsung Telecommunications Technology Research Co Ltd, Samsung Electronics Co Ltd filed Critical Beijing Samsung Telecommunications Technology Research Co Ltd
Priority to CN200910007312A priority Critical patent/CN101799805A/zh
Publication of CN101799805A publication Critical patent/CN101799805A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供一种文件检索方法及其系统。所述文件检索方法包括:输入至少一个用户查询;检索与所述用户查询匹配的文件;选择所述匹配的文件,根据选择的文件调用预先训练的多个语言模型;计算所述选择的文件相对于每个语言模型的复杂度分数,并将所述复杂度分数表示为文件的复杂度向量,用以对文件进行分类;输出经过分类的文件。

Description

文件检索方法及其系统
技术领域
本发明涉及一种自动检索文件的方法及其系统,尤其涉及一种通过语言模型来对文件进行检索的方法及其系统。
背景技术
近来,随着检索技术的不断发展,检索准确度越来越高,检索范围也变得越来越宽。传统上,搜索引擎通过使用用户输入的关键字来计算文件的关键字出现频率,并按照该频率来输出文件。也就是说,关键字出现频率越高,文件的相关度就越大。
同时,由于基于关键字频率将检索的文件显示给用户,因此用户无法得知这些文件的内容,必须由用户逐个浏览这些文件以寻找需要的文件,因此无法快速获取需要的文件。
此外,使用关键字检索的文件没有根据其内容很好地被分类,不能直观地将文件之间的相关程度和类别显示给用户,从而给用户带来了很大的不便。
发明内容
本发明的目的在于提供一种文件检索方法,所述方法不需要复杂的处理而通过利用预先训练的语言模型对检索的文件进行分类并输出给用户,从而用户可直观地找到需要的文件,极大地方便了用户。
本发明的另一目的在于提供一种文件检索系统,所述系统不需要复杂的系统配置而通过利用预先训练的语言模型对检索的文件进行分类并输出给用户,从而用户可直观地找到需要的文件,极大地方便了用户。
本发明的一方面在于提供一种文件检索方法,所述方法包括:输入至少一个用户查询;检索与所述用户查询匹配的文件;选择所述匹配的文件,根据选择的文件调用预先训练的多个语言模型;计算所述选择的文件相对于每个语言模型的复杂度分数,并将所述复杂度分数表示为文件的复杂度向量,用以对文件进行分类;输出经过分类的文件。
所述检索步骤可包括调用网页爬虫程序来读取相关网页,用以检索与所述用户查询匹配的文件。
所述分类步骤可包括将文件的复杂度向量输入到支持向量机SVM分类器以对文件进行分类。
所述文件检索方法,可进一步包括步骤:基于分类的文件的相似度和所述分类的文件所属网站的重要度对所述分类的文件进行排列。
所述文件检索方法,可进一步包括步骤:选择所述分类的文件之一和相应语言模型之一来计算复杂度分数,并将所述复杂度分数与预定阀值进行比较;当所述复杂度分数大于预定阀值时,训练新的语言模型,并且当所述复杂度分数小于或等于预定阀值时,对所述相关语言模型进行再训练。
本发明的另一方面提供一种网络信息检索系统,包括:输入模块,用以输入至少一个用户查询;检索模块,用以检索与所述用户查询匹配的文件;文件分类模块,用以选择所述匹配的文件,根据选择的文件调用预先训练的多个语言模型,计算所述选择的文件相对于每个语言模型的复杂度分数,并将所述复杂度分数表示为文件的复杂度向量,用以对文件进行分类;输出模块,用以输出检索和分类的文件。
所述检索模块可调用网页爬虫程序来读取相关网页,用以检索与所述用户查询匹配的文件。
所述文件分类模块可将文件的复杂度向量输入到支持向量机SVM分类器以对文件进行分类。
所述文件检索系统,可进一步包括:排列模块,用以基于分类的文件的相似度和所述分类的文件所属网站的重要度对所述分类的文件进行排列。
所述文件检索系统,可进一步包括:语言模型更新模块,用以选择所述分类的文件之一和相应语言模型之一来计算复杂度分数,并将所述复杂度分数与预定阀值进行比较,当所述复杂度分数大于预定阀值时,训练新的语言模型,并且当所述复杂度分数小于或等于预定阀值时,对所述相关语言模型进行再训练。
附图说明
通过下面结合附图进行的详细描述,本发明的上述和其他目的和特点将会变得更加清楚,其中:
图1是示出根据本发明示例性实施例的文件检索系统的框图;
图2是示出根据本发明示例性实施例的文件检索方法的流程图;
图3是示出根据本发明示例性实施例的文件分类模块执行的分类的示例;
图4是根据本发明示例性实施例的文件检索结果的示例;
图5是根据本发明另一示例性实施例的文件检索系统的框图;
图6是根据本发明另一示例性实施例的文件检索方法的流程图。
具体实施方式
以下,参照附图来详细说明本发明的实施例。
图1是示出根据本发明示例性实施例的文件检索系统的框图。参照图1,根据本发明示例性实施例的文件检索系统100包括:输入模块102、检索模块104、文件分类模块106和输出模块108。
用户通过输入模块102输入用户查询以检索需要的文件。
检索模块104检索与所述用户查询匹配的文件。检索模块104可由检索引擎通过调用网页爬虫(web crawler)来实现文件的检索,并且确定用户查询和文件是否匹配。如果用户查询和文件匹配,则将该文件作为匹配的文件,如果用户查询和文件不匹配,则忽略该文件。
文件分类模块106选择所述匹配的文件,根据选择的文件调用预先训练的多个语言模型,计算所述选择的文件相对于每个语言模型的复杂度分数,并将所述复杂度分数表示为文件的复杂度向量,用以对文件进行分类。
下面将详细描述文件分类模块106的功能。
文件分类模块106从匹配的文件选择一个文件,并调用与选择的文件相应的一组语言模型。该语言模型组是用训练语料预先训练的语言模型组(例如,财经类的语言模型、娱乐类的语言模型或体育类的语言模型等)。然后,文件分类模块106利用以下等式1计算该文件对相应的一个语言模型的复杂度分数:
PP = 2 - P ( W ) log 2 P ( W ) 等式1
其中,P(W)为词序列(句子)W={wi,i=1,2,...,M)的概率,如等式2所示:
P ( W ) = Π i = 1 M P ( w i | w i - n + 1 , . . . , w i - 1 ) 等式2
其中,(wi-n+1,...wi-1)为曾经使用过的词序列。
文件分类模块106将对一组语言模型的复杂度分数表示为复杂度向量V={PPi,i=1,2,...,N),以将每个文件表示为一个N维复杂度向量。此外,文件分类模块106可使用支持向量机(SVM)分类器对这些向量进行分类,但本发明不限于此,可使用本领域公知的任何其他分类器。
输出模块108输出通过输入用户查询来检索和分类的文件。
图2是示出根据本发明示例性实施例的文件检索方法的流程图。参照图2,在步骤S201,用户通过输入模块102输入至少一个用户查询。在步骤S202,检索模块104检索与所述用户查询匹配的文件。具体说来,检索模块104可由检索引擎通过调用网页爬虫来实现文件的检索,并且确定用户查询和文件是否匹配。如果用户查询和文件匹配,则将该文件作为匹配的文件,如果用户查询和文件不匹配,则忽略该文件。应注意,本发明不限于此,可使用现有技术中的任何检索方法对文件进行检索。接着,在步骤S203,文件分类模块106选择所述匹配的文件,根据选择的文件调用预先训练的多个语言模型。这是为了将文件与多个语言模型联系起来,以随后根据文件的内容对文件进行分类。在步骤S204,文件分类模块106计算所述选择的文件相对于每个语言模型的复杂度分数,并将所述复杂度分数表示为文件的复杂度向量,从而对文件进行分类。由于通过步骤S203和步骤S204分类的文件是基于其内容来进行分类的,因此能够保证很好的分类准确度。这里,文件分类模块106可使用支持向量机(SVM)分类器对这些向量进行分类,但本发明不限于此,可使用本领域公知的任何其他分类器。在步骤S205,输出模块108将经过分类的文件输出给用户。
图3是示出根据本发明示例性实施例的文件分类模块执行的分类的示例。如图3所示,与用户查询“三星Q1”匹配的文件经过文件分类模块106分类为4个类型,分别是“参数”、“评估”、“好的评价”和“不好的评价”。但是本发明不限于此,文件分类模块106可根据用户的喜好将文件分类为各种不同类型。
图4是根据本发明示例性实施例的文件检索结果的示例。如图4所示,基于输入的用户查询“三星Q1”,经过根据本发明示例性实施例的文件检索方法检索的文件通过输出模块108输出为5种类型,分别是“产品照片和名称”、“产品参数”、“性能评估”、“来自用户的好的评价”和“来自用户的不好的评价”。但是本发明不限于此,根据本发明示例性实施例的文件检索方法可将文件分类为各种不同类型并以各种方式显示这些文件。
以下参照图5和图6来描述本发明另一示例性实施例。
图5是根据本发明另一示例性实施例的文件检索系统的框图。参照图4,根据本发明另一示例性实施例的文件检索系统500包括:输入模块502、检索模块504、文件分类模块506、输出模块508、排列模块510和语言模型更新模块512。在此,输入模块502、检索模块504和文件分类模块506的功能与图1中的输入模块102、检索模块104和文件分类模块106相似,为了避免混淆,在此不再详细阐述。
排列模块510基于分类的文件的相似度和所述分类的文件所属网站的重要度对所述分类的文件进行排列。具体地,可利用以下等式3计算在经过文件分类模块406分类的属于同一类别的文件之间的相似度:
Sim ( V 1 , V 2 ) = Σ i =1 N ( P P i 1 - P P i 2 ) 2 等式4
其中,Sim(V1,V2)为两个文件的复杂度向量V1和V2的相似度。PP为文件对语言模型的复杂度分数。
此外,排列模块510还计算文件的重要度,该重要度取决于作为文件来源的网站的重要度,即,新浪、搜狐等网站的重要度相对较高。而且,排列单元510基于文件的相似度和重要度来排列文件。具体地,排列模块510可对计算出的文件的相似度和重要度进行加权求和。输出模块508可按照计算出的加权求和来输出这些文件。即,可将加权求和较大的文件优先输出。但是本发明不限于此,还可将这些文件按照加权求和的大小进行等级排列并输出。
语言模型更新模块512,选择所述分类的文件之一和相应语言模型之一来计算复杂度分数,并将所述复杂度分数与预定阀值进行比较,当所述复杂度分数大于预定阀值时,训练新的语言模型,并且当所述复杂度分数小于或等于预定阀值时,对所述相关语言模型进行再训练。
图6是根据本发明另一示例性实施例的文件检索方法的流程图。在图6中,步骤S601至步骤S604与图2中的步骤S201至步骤S204相似,为了避免混淆,在此不再进行详细描述。
在步骤S605,排列模块510基于分类的文件的相似度和所述分类的文件所属网站的重要度对在步骤S604分类的文件进行排列。然后,在步骤S606,输出模块508将经过分类和排列的文件提供给用户。
在步骤S607,语言模型更新模块512选择所述分类的文件之一和相应语言模型之一来计算复杂度分数,并将所述复杂度分数与预定阀值进行比较。当所述复杂度分数大于预定阀值时,训练新的语言模型,并将该新的语言模型提供给文件分类模块506,以便文件分类模块506随后使用该新的语言模型。当所述复杂度分数小于或等于预定阀值时,对所述相关语言模型进行再训练。
由于根据本发明示例性实施例的文件检索方法和系统基于文件的内容来进行检索和分类,因此可大大提高检索的文件的准确性和有效性。
同时,通过将文件进行分类并按照文件之间的相关度和其所属网站的重要性来输出文件,可将这些文件直观地提供给用户,从而给用户提供了方便。
此外,通过不断地更新语言模型,对语言模型进行再训练,为用户以后的检索提供了方便。
根据本发明示例性实施例的文件检索方法和系统不仅可应用于网页信息检索,还可应用于文件分类、问题回答、文件汇总等。本发明不限于上述实施例,在不脱离本发明的精神和范围的情况下,可以对本发明进行形式和细节上的各种改变。

Claims (10)

1.一种文件检索方法,所述方法包括步骤:
输入至少一个用户查询;
检索与所述用户查询匹配的文件;
选择所述匹配的文件,根据所选择的文件调用预先训练的多个语言模型;
计算所选择的文件相对于每个语言模型的复杂度分数,并将所述复杂度分数表示为文件的复杂度向量,用以对文件进行分类;
输出经过分类的文件。
2.如权利要求1所述的方法,其特征在于所述检索步骤为:
调用网页爬虫程序来读取相关网页,用以检索与所述用户查询匹配的文件。
3.如权利要求1所述的方法,其特征在于所述分类步骤为:
将文件的复杂度向量输入到支持向量机SVM分类器以对文件进行分类。
4.如权利要求1所述的方法,其特征在于进一步包括步骤:
基于分类的文件的相似度和所述分类的文件所属网站的重要度对所述分类的文件进行排列。
5.如权利要求1所述的方法,其特征在于进一步包括步骤:
选择所述分类的文件之一和相应语言模型之一来计算复杂度分数,并将所述复杂度分数与预定阀值进行比较;
当所述复杂度分数大于预定阀值时,训练新的语言模型,并且当所述复杂度分数小于或等于预定阀值时,对所述相关语言模型进行再训练。
6.一种网络信息检索系统,包括:
输入模块,用以输入至少一个用户查询;
检索模块,用以检索与所述用户查询匹配的文件;
文件分类模块,用以选择所述匹配的文件,根据选择的文件调用预先训练的多个语言模型,计算所述选择的文件相对于每个语言模型的复杂度分数,并将所述复杂度分数表示为文件的复杂度向量,以对文件进行分类;
输出模块,用以输出检索和分类的文件。
7.如权利要求6所述的系统,其特征在于检索模块调用网页爬虫程序来读取相关网页,用以检索与所述用户查询匹配的文件。
8.如权利要求6所述的系统,其特征在于文件分类模块将文件的复杂度向量输入到支持向量机SVM分类器以对文件进行分类。
9.如权利要求6所述的系统,其特征在于进一步包括:
排列模块,用以基于分类的文件的相似度和所述分类的文件所属网站的重要度对所述分类的文件进行排列。
10.如权利要求6所述的系统,其中,还包括:
语言模型更新模块,用以选择所述分类的文件之一和相应语言模型之一来计算复杂度分数,并将所述复杂度分数与预定阀值进行比较,当所述复杂度分数大于预定阀值时,训练新的语言模型,并且当所述复杂度分数小于或等于预定阀值时,对所述相关语言模型进行再训练。
CN200910007312A 2009-02-11 2009-02-11 文件检索方法及其系统 Pending CN101799805A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910007312A CN101799805A (zh) 2009-02-11 2009-02-11 文件检索方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910007312A CN101799805A (zh) 2009-02-11 2009-02-11 文件检索方法及其系统

Publications (1)

Publication Number Publication Date
CN101799805A true CN101799805A (zh) 2010-08-11

Family

ID=42595483

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910007312A Pending CN101799805A (zh) 2009-02-11 2009-02-11 文件检索方法及其系统

Country Status (1)

Country Link
CN (1) CN101799805A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411626A (zh) * 2011-12-13 2012-04-11 北京大学 基于相关性分数分布对查询意图进行分类的方法
CN106503066A (zh) * 2016-09-29 2017-03-15 北京百度网讯科技有限公司 基于人工智能的处理搜索结果方法和装置
CN109740435A (zh) * 2018-11-30 2019-05-10 四川译讯信息科技有限公司 一种图片类文件复杂度判定方法及平台
CN113297438A (zh) * 2021-05-21 2021-08-24 深圳市智尊宝数据开发有限公司 信息检索方法、电子设备及相关产品

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411626A (zh) * 2011-12-13 2012-04-11 北京大学 基于相关性分数分布对查询意图进行分类的方法
CN106503066A (zh) * 2016-09-29 2017-03-15 北京百度网讯科技有限公司 基于人工智能的处理搜索结果方法和装置
CN109740435A (zh) * 2018-11-30 2019-05-10 四川译讯信息科技有限公司 一种图片类文件复杂度判定方法及平台
CN113297438A (zh) * 2021-05-21 2021-08-24 深圳市智尊宝数据开发有限公司 信息检索方法、电子设备及相关产品

Similar Documents

Publication Publication Date Title
US9449271B2 (en) Classifying resources using a deep network
CN101551806B (zh) 一种个性化网址导航的方法和系统
US9846836B2 (en) Modeling interestingness with deep neural networks
CN101876981B (zh) 一种构建知识库的方法及装置
US8538898B2 (en) Interactive framework for name disambiguation
CN111190997B (zh) 一种使用神经网络和机器学习排序算法的问答系统实现方法
US20150074112A1 (en) Multimedia Question Answering System and Method
CN112100344A (zh) 一种基于知识图谱的金融领域知识问答方法
CN104765769A (zh) 一种基于词矢量的短文本查询扩展及检索方法
CN104885081A (zh) 搜索系统和相应方法
US20090319449A1 (en) Providing context for web articles
US20110196670A1 (en) Indexing content at semantic level
CN110674252A (zh) 一种面向司法领域的高精度语义搜索系统
JP2010170529A (ja) オブジェクト分類方法およびオブジェクト分類システム
CN111832290B (zh) 用于确定文本相关度的模型训练方法、装置、电子设备及可读存储介质
CN104239340A (zh) 搜索结果筛选方法与装置
CN105005564A (zh) 一种基于问答平台的数据处理方法和装置
CN106708929B (zh) 视频节目的搜索方法和装置
US11893537B2 (en) Linguistic analysis of seed documents and peer groups
US20110208715A1 (en) Automatically mining intents of a group of queries
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
CN110633407A (zh) 信息检索方法、装置、设备及计算机可读介质
CN109271514A (zh) 短文本分类模型的生成方法、分类方法、装置及存储介质
CN106570196B (zh) 视频节目的搜索方法和装置
CN111324705B (zh) 自适应性调整关联搜索词的系统及其方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20100811