CN104765862A - 文档检索的方法和装置 - Google Patents

文档检索的方法和装置 Download PDF

Info

Publication number
CN104765862A
CN104765862A CN201510194479.1A CN201510194479A CN104765862A CN 104765862 A CN104765862 A CN 104765862A CN 201510194479 A CN201510194479 A CN 201510194479A CN 104765862 A CN104765862 A CN 104765862A
Authority
CN
China
Prior art keywords
keyword
document
relevant
electronic equipment
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510194479.1A
Other languages
English (en)
Inventor
刘水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510194479.1A priority Critical patent/CN104765862A/zh
Publication of CN104765862A publication Critical patent/CN104765862A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文档检索的方法和装置,所述方法的一个实施方式包括:获取第一关键词;基于所述第一关键词,开始如下检索步骤:根据所述第一关键词,检索出与所述第一关键词相关的文档;基于所述文档,获取与所述第一关键词相关的第二关键词;基于所述第二关键词与所述第一关键词的比较判断所述第二关键词是否收敛;如果所述第二关键词收敛,则输出所述文档;如果所述第二关键词不收敛,则将所述第二关键词作为第一关键词继续执行所述检索步骤。该实施方式提高了文档检索的全面性。

Description

文档检索的方法和装置
技术领域
本申请涉及计算机技术领域,具体涉及数据检索技术领域,尤其涉及一种文档检索的方法和装置。
背景技术
文档检索是基于数据的匹配从文档库中获得相关文档并输出的一种技术。例如,利用文档检索技术可以基于申请号、申请日或关键词的匹配从专利文献库中检索一份或多份专利文献,也可以是根据关键词、作者或标题的匹配从论文库中检索一篇或多篇学术论文文档,等等。
当前基于关键词匹配的文档检索技术中,通常需要依赖已知的关键词进行匹配检索。这样的检索过程在预知的关键词不够完备时存在文档检索不全面的问题。
发明内容
本申请的目的在于提出一种改进的文档检索的方法和装置,来解决以上背景技术部分提到的一个或多个技术问题。
第一方面,本申请提供了一种文档检索的方法,所述方法包括:获取第一关键词;基于所述第一关键词,执行如下检索步骤:根据所述第一关键词,检索出与所述第一关键词相关的文档;基于所述文档,获取与所述第一关键词相关的第二关键词;基于所述第二关键词与所述第一关键词的比较判断所述第二关键词是否收敛;如果所述第二关键词收敛,则输出所述文档;如果所述第二关键词不收敛,则将所述第二关键词作为第一关键词继续执行所述检索步骤。
在一些实施例中,所述基于所述文档,获取与所述第一关键词相关的第二关键词包括:提取所述文档的关键词;基于预先训练的分类模型,将所述文档的关键词中符合以下筛选条件的关键词作为与所述第一关键词相关的第二关键词:所述关键词属于所述分类模型中所述第一关键词的分类下的关键词之一。
在一些实施例中,所述基于所述文档,获取与所述第一关键词相关的第二关键词还包括:将符合筛选条件的所述文档的关键词在分类模型中所属分类的类别名称作为第二关键词。
在一些实施例中,所述基于所述文档,获取与所述第一关键词相关的第二关键词还包括:将所述第一关键词作为第二关键词。
在一些实施例中,所述提取所述文档的关键词包括:通过词频-逆向文件频率模型、隐含狄利克雷分布模型中的至少一种模型提取所述文档的关键词。
在一些实施例中,所述判断所述第二关键词是否收敛包括:将所述第二关键词的数量与所述第一关键词的数量进行对比;若所述第二关键词的数量与所述第一关键词的数量相同,则判断为所述第二关键词收敛;若所述第二关键词的数量大于所述第一关键词的数量,则判断为所述第二关键词不收敛。
第二方面,本申请提供了一种文档检索的装置,所述装置包括:获取模块,配置用于获取第一关键词;检索模块,配置用于基于所述第一关键词,驱动以下单元执行如下检索步骤:检索单元,根据所述第一关键词,检索出与所述第一关键词相关的文档;提取单元,基于所述文档,获取与所述第一关键词相关的第二关键词;判断单元,基于所述第二关键词与所述第一关键词的比较判断所述第二关键词是否收敛;输出单元,如果所述第二关键词收敛,则输出所述文档;反馈模块,配置用于如果所述第二关键词不收敛,则将所述第二关键词作为第一关键词反馈给所述获取模块。
在一些实施例中,所述提取单元包括:提取子单元,配置用于提取所述文档的关键词;确定子单元,配置用于基于预先训练的分类模型,将所述文档的关键词中符合以下筛选条件的关键词作为与所述第一关键词相关的第二关键词:所述关键词属于所述分类模型中所述第一关键词的分类下的关键词之一。
在一些实施例中,所述确定子单元还配置用于:将符合筛选条件的所述文档的关键词在分类模型中所属分类的类别名称作为第二关键词。
在一些实施例中,所述确定子单元还配置用于:将所述第一关键词作为第二关键词。
在一些实施例中,所述提取子单元配置用于:通过词频-逆向文件频率模型、隐含狄利克雷分布模型中的至少一种模型提取所述文档的关键词。
在一些实施例中,所述判断单元还配置用于:将所述第二关键词的数量与所述第一关键词的数量进行对比;若所述第二关键词的数量与所述第一关键词的数量相同,则判断为所述第二关键词收敛;若所述第二关键词的数量大于所述第一关键词的数量,则判断为所述第二关键词不收敛。
本申请提供的文档检索的方法和装置,根据第一关键词,检索出与第一关键词相关的文档,再基于所述文档,获取与所述第一关键词相关的第二关键词,然后判断第二关键词是否收敛,如果第二关键词收敛,将文档输出,如果第二关键词不收敛,可以将第二关键词作为第一关键词重复上述检索过程,以继续获取更多的文档和第二关键词,直至第二关键词收敛,则不能再根据关键词检索到新的文档。本申请提供的文档检索的方法和装置提高了文档检索的全面性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是根据本申请的文档检索的方法的一个实施例的流程图;
图2是根据本申请的文档检索的方法的另一个实施例的流程图;
图3是根据本申请的文档检索的方法应用于领域文档挖掘的一个流程图;
图4是根据本申请的文档检索的装置的一个实施例的结构示意图;
图5示出了适用于实现本申请实施例的电子设备或文档检索装置的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
请参考图1,其示出了文档检索的方法的一个流程100。本实施例主要以该方法应用于包含有处理器和/或存储器的电子设备中来举例说明,该电子设备可以包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts GroupAudio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。本申请的文档检索的方法,包括以下步骤:
步骤101,获取第一关键词。
在本实施例中,电子设备可以从本地获取检索词作为第一关键词。该检索词可以是用户通过电子设备输入的检索关键词,也可以是检索分类的类别名称,例如,计算机编程语言等等。
在本实施例中,关键词可以是单个媒体在制作使用索引时,所用到的词汇,也可以是用于表达文档主题内容的词汇,等等。可选地,该第一关键词可以是一个,也可以有多个。
步骤102,基于所述第一关键词,开始如下检索步骤:根据第一关键词,检索出与第一关键词相关的文档;基于上述文档,获取与第一关键词相关的第二关键词;基于第二关键词与第一关键词的比较判断第二关键词是否收敛;如果第二关键词收敛,则输出上述文档。
在本实施例中,步骤102可以包括子步骤1021、1022、1023、1024。其中:
步骤1021,根据第一关键词,检索出与第一关键词相关的文档。
在本实施例中,电子设备可以首先根据第一关键词从本地或远程地检索出与第一关键词相关的文档。其中,与该第一关键词相关的文档可以是包含该第一关键词的文档,也可以是包含该第一关键词拆分、组合后的关键词的文档,或者是该第一关键词所属领域的文档,等等。例如第一关键词是计算机编程语言,与第一关键词相关的文档可以是包括计算机编程语言的文档,也可以是包括以下至少一个关键词的文档:计算机、编程、语言、计算机编程、计算机语言、编程语言等。
在本实施例中电子设备可以根据第一关键词生成查询命令,例如query(查询)命令进行文档检索。其中,query命令可以由搜索引擎或数据库送出,以在数据库中寻找某一文件、网站、记录或一系列记录。
在本实施例中,检索文档所针对的文档库可以存储在电子设备自身的存储器中,这时,该电子设备可以直接本地检索与第一关键词相关的文档;上述文档库还可以存储在远程服务器(例如对电子设备上的文档检索类应用提供支持的后台服务器)中,这时,该电子设备可以通过有线连接方式或者无线连接方式对远程服务器发送检索请求或从远程服务器接收文档信息。上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
步骤1022,基于所述文档,获取与所述第一关键词相关的第二关键词。
在本实施例中,电子设备可以接着基于上述文档,获取与第一关键词相关的第二关键词。该第二关键词的关键词数量可以是一个,也可以是多个。
在本实施例的可选实现方式中,电子设备可以通过统计用户检索上述文档时输入的关键词,建立关键词的置信空间,将置信度落入置信空间的词语作为第二关键词。
步骤1023,基于第二关键词与第一关键词的比较判断第二关键词是否收敛。
在本实施例中,电子设备再接着可以将获取的第二关键词与步骤101中获取的第一关键词相比较,以判断第二关键词是否收敛。
在本实施例的一些实现中,电子设备可以通过第二关键词的数量与第一关键词的数量相比没有增加来确定第二关键词收敛。实施时,电子设备可以分别统计第一关键词和第二关键词的数量,并将第二关键词的数量与第一关键词的数量进行对比。若第二关键词的数量与第一关键词的数量相同,则电子设备判断第二关键词收敛。此时,电子设备可以执行步骤1024。若第二关键词的数量大于第一关键词的数量,则电子设备判断第二关键词不收敛,并可以执行步骤103。
在本实施例的另一些实现中,电子设备可以通过第二关键词全部包含在第一关键词内确定第二关键词收敛。例如,电子设备可以基于第一关键词生成关键词集合,在关键词集合中匹配第二关键词,当在关键词集合中匹配到所有的第二关键词时,第二关键词收敛,当在关键词集合中未匹配到所有的第二关键词时,判断第二关键词不收敛。此时,如果第二关键词收敛,电子设备可以执行步骤1024。如果第二关键词不收敛,电子设备可以执行步骤1022。
步骤1024,如果第二关键词收敛,则输出上述文档。
在本实施例中,如果第二关键词收敛,电子设备可以输出上述文档。其中,电子设备可以将上述文档输出到页面或显示屏,也可以将上述文档输出到打印机,等等,本申请对此不做限定。
步骤103,如果第二关键词不收敛,则将第二关键词作为第一关键词继续执行检索步骤。
在本实施例中,如果电子设备判断第二关键词不收敛,则将第二关键词作为第一关键词继续执行步骤102的检索步骤,形成循环。
在本实施例的一些实现中,电子设备可以将第二关键词包含的全部关键词作为第一关键词继续执行步骤102的检索步骤,形成循环。例如,当电子设备通过第二关键词的数量与第一关键词的数量相比没有增加来确定第二关键词收敛时,如果第二关键词不收敛,电子设备可以将第二关键词包含的全部关键词作为第一关键词继续执行步骤102。此时,电子设备按照第二关键词重新从文档库中检索文档,可以不保存第二关键词收敛之前获取的文档。直到第二关键词收敛时,电子设备此次检索获得的文档是根据全部关键词(例如包括所有循环步骤中获取的第一关键词或第二关键词)获取的全部文档。电子设备可以直接将全部文档输出,结束检索过程。可选地,当第二关键词有多个时,可以将多个关键词生成一个query命令以检索相关文档。
在本实施例的另一些实现中,电子设备还可以仅将在第一关键词中未匹配到的第二关键词作为第一关键词继续执行步骤102的检索步骤。例如,电子设备可以通过第二关键词全部包含在第一关键词内确定第二关键词收敛。例如,电子设备可以基于第一关键词生成关键词集合,在关键词集合中匹配第二关键词,当在关键词集合中匹配到所有的第二关键词时,第二关键词收敛。当在关键词集合中未匹配到所有的第二关键词时,第二关键词不收敛。此时,如果第二关键词不收敛,电子设备可以输出本次执行检索步骤所得到的文档,并将在第一关键词中未匹配到的第二关键词作为第一关键词执行步骤102。如果一次检索步骤中的第二关键词收敛,电子设备可以输出本次执行检索步骤所得到的文档。这些文档可以输出到一个缓存空间内,每次输出文档后将文档去重(如分析文档存储地址或匹配文档相似度去重等)。直至第二关键词收敛,电子设备结束检索过程。
值得说明的是,本实施例的应用场景可以是文档检索系统,也可以是广告分发系统,等等,本申请对此不做限定。下面以本申请的文档检索的方法应用在文档检索系统进行领域文档挖掘为例来说明。请参阅图3,图3示出了本申请的文档检索的方法应用于领域文档挖掘的一个流程300。如图3所示,首先,电子设备可以接受用户输入的第一关键词(例如是待挖掘的文档所属领域的领域名称,在图3示出的流程中,根据第一关键词生成领域查询如query命令)。接着,电子设备根据第一关键词从检索的源文档库中检索相关文档,并可以基于检索到的文档获取第二关键词(第二关键词例如可以是领域关键词,该领域关键词可以包括领域名称分类下的关键词以及领域名称),以挖掘出更多属于该领域的关键词,并根据挖掘到的领域关键词生成新的query命令进行检索。然后,电子设备可以将第二关键词与第一关键词相对比,以判断第二关键词是否收敛。在第二关键词收敛的情况下,将文档输出为领域文档。在第二关键词不收敛的情况下,电子设备可以将第二关键词作为检索用的第一关键词,重复检索步骤,直到第二关键词收敛,输出挖掘到的该领域的文档。在该应用场景中,电子设备通过迭代执行检索步骤,一次次进一步挖掘更多所属领域的关键词,通过挖掘到的领域关键词进一步挖掘更多的领域文档,从而可以在领域分类的类别及类别下的关键词不够完备的情况下提高领域文档挖掘的全面性。
请参阅图2,图2示出了本申请的文档检索的方法的另一个实施例的流程200。该流程200包括以下步骤:
步骤201,获取第一关键词。
在本实施例中,电子设备可以从本地获取检索词作为第一关键词。该第一关键词可以是用户通过电子设备输入的关键词,也可以是检索分类的类别名称,例如,计算机编程语言等等。可选地,该第一关键词可以包括一个关键词,也可以包括多个关键词。
步骤202,基于所述第一关键词,开始如下检索步骤:基于所述第一关键词,开始如下检索步骤:根据第一关键词,检索出与第一关键词相关的文档;提取上述文档的关键词;基于预先训练的分类模型,确定第二关键词;基于第二关键词与第一关键词的比较判断第二关键词是否收敛;如果第二关键词收敛,则输出上述文档。
在本实施例中,电子设备通过步骤202检索文档。步骤202包括子步骤2021、2022、2023、2024、2025。其中:
步骤2021,根据第一关键词,检索出与第一关键词相关的文档。
在本实施例中,电子设备可以首先根据步骤201中获取的第一关键词从本地或远程地检索出与第一关键词相关的文档。
步骤2022,提取文档的关键词。
在本实施例中,电子设备可以接着提取步骤2021中检索到的文档的关键词。此时,电子设备可以采用各种方法提取上述文档的关键词,本申请对此不做限定。
作为一个示例,电子设备可以通过隐含狄利克雷分布(LatentDirichlet Allocation,LDA)模型提取上述文档的关键词。其中,LDA模型也称为三层贝叶斯概率模型,包含词、主题和文档三层结构。LDA模型认为一篇文档是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。LDA模型采用词袋(bag of words)的方法,将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。词袋方法不考虑词与词之间的顺序,可以简化问题的复杂性。LDA模型认为每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多词所构成的一个概率分布。电子设备可以根据词的概率分布,将分布概率大于一定阈值(例如大于1%)的词作为文档的关键词,也可以从每篇文档中按照分布概率由高到低选择一定数量(例如20个)的词作为文档的关键词。
作为另一个示例,电子设备还可以通过词频-逆向文档频率(term frequency-inverse document frequency,TF-IDF)模型提取上述文档的关键词。TF-IDF模型可以用以评估一个词对于一个文档集或一个语料库中的其中一篇文档的重要程度。TF-IDF模型认为词的重要性随着它在文档中出现的次数成正比地增加,但同时会随着它在文档集或语料库中出现的频率成反比地下降。例如,在一篇文档里,词频(term frequency,TF)可以是某一个给定的词语在该文档中出现的次数被归一化得到的数值(例如可以是一个词语在文档里出现的次数与其所在文档包含的总词语数)。逆向文档频率(inverse documentfrequency,IDF)可以衡量一个词语的普遍重要性(词语在文档集或语料库出现的频率越高,该词语的普遍重要性越高,逆向文档频率值越小,反之该词语的逆向文档频率值越大)。可选地,某一词语的IDF,可以由总文档数目除以包含该词语的文档的数目,再将得到的商取对数得到。使用TF-IDF模型可以通过逆向文档频率过滤掉常用词,从文档中提取出需要的关键词。可选地,电子设备可以根据词的TF与IDF的乘积来提取文档的关键词。此时,可以设定一个该乘积的阈值,将TF与IDF的乘积大于该阈值的词提取为关键词。也可以对一篇文档提取TF与IDF的乘积最大的固定数量的词作为文档的关键词。
步骤2023,基于预先训练的分类模型,确定第二关键词。
在本实施例中,电子设备可以基于预先训练的分类模型,将上述文档的关键词中符合以下筛选条件的关键词作为与第一关键词相关的第二关键词:关键词属于分类模型中第一关键词的分类下的关键词之一。可选地,电子设备也可以将满足上述筛选条件的关键词在分类模型中所属分类的类别名称作为第二关键词。电子设备还可以将第一关键词作为第二关键词。
在本实施例中,电子设备可以存储有预先训练的分类模型。该分类模型可以用来提供根据上述文档的关键词得到第二关键词的分类依据。上述分类模型可以包含至少一个分类体系。该分类模型还可以包括通过训练样本集或机器学习获取的一个或多个分类器。其中,上述机器学习算法可以包括但不限于以下至少一种:回归分析方法、K近邻方法、决策树方法、神经网络方法、朴素贝叶斯方法和支持向量机方法等等。作为一种示例,上述分类体系的一个片段例如可以包括:
在某次检索过程中,电子设备获取的第一关键词为鱼类。电子设备检索出与鱼类相关的文档。从鱼类相关的文档中提取文档的关键词,其中,文档的关键词例如包含鲶鱼、胡子鲶等等。在分类模型中,电子设备可以基于该分类体系及上述分类器判断鲶鱼(该词属于上述文档的关键词并同时属于分类模型中第一关键词的分类下的关键词之一)为第二关键词。可选地,电子设备还可以同时根据以上分类体系将文档关键词中没有包括的淡水鱼(该词属于满足鲶鱼所属的子分类的类别名称)作为第二关键词。可选地,电子设备还可以同时将检索时使用的第一关键词鱼类作为第二关键词。
在本实施例的可选实现方式中,分类模型中某一分类下的关键词可以是预先训练的,也可以是文档检索过程中所检索到的文档的关键词与第一关键词的分类的类别名称及分类下的关键词的语义相关度确定的。可选地,上述实例中如果分类体系中第一关键词分类下的关键词不包含胡子鲶,则可以通过上述的分类器(例如包含基于语义距离的k近邻方法的分类器)将胡子鲶确定为第二关键词。
步骤2024,基于第二关键词与第一关键词的比较判断第二关键词是否收敛。
在本实施例中,电子设备再接着可以将获取的第二关键词与步骤201中获取的第一关键词相比较,以判断第二关键词是否收敛。在本实施例的可选实现方式中,电子设备可以通过第二关键词的数量与第一关键词的数量相比没有增加来确定第二关键词收敛。在本发明的另一些实现方式中,电子设备可以通过第二关键词全部包含在第一关键词内确定第二关键词收敛。当判断第二关键词收敛时,电子设备可以执行步骤2025,当判断第二关键词不收敛时,电子设备可以执行步骤203。
步骤2025,如果第二关键词收敛,则输出文档。
在本实施例中,如果第二关键词收敛,电子设备可以输出上述文档。其中,电子设备可以将上述文档输出到页面或显示屏,也可以将上述文档输出到打印机,等等,本申请对此不做限定。
步骤203,如果第二关键词不收敛,则将第二关键词作为第一关键词继续执行检索步骤。
在本实施例中,如果电子设备判断第二关键词不收敛,则将第二关键词作为第一关键词继续执行步骤202的检索步骤,形成循环。在一些实现中,电子设备可以将第二关键词包含的全部关键词作为第一关键词继续执行步骤202的检索步骤,形成循环。此时,第二关键词收敛时电子设备此次检索获得的文档是根据全部关键词(例如包括所有循环步骤中获取的第一关键词或第二关键词)获取的全部文档。电子设备可以一次将全部文档输出,检索过程结束。在一些可选实现方式中,分类模型可以以boosting算法作为框架对上述分类器的分类进行加强。其中,Boosting算法是一种可以提高任意给定学习算法准确度的方法,可以用来提高弱分类算法的识别率。在一些实现中,分类模型可以将上述分类器的方法作为基分类算法放于Boosting框架中生成基分类器,每获取一次第二关键词就用该基分类算法在样本集上产生一个基分类器,这样在多次循环后就认为产生多个基分类器。然后分类模型可以利用Boosting框架算法将这多个基分类器进行加权融合,产生一个最后的结果分类器。这多个基分类器中联合后的结果有较高的识别率,即最后得到的第二关键词具有较高的准确度。其中,在产生单个的基分类器时可用相同的分类算法,也可用不同的分类算法。
在另一些实现中,电子设备可以仅将在第一关键词中未匹配到的第二关键词作为第一关键词继续执行步骤202的检索步骤。此时,如果第二关键词不收敛,电子设备可以输出本次执行检索步骤所得到的文档,例如电子设备先将文档输出到缓冲区,并将在第一关键词中未匹配到的第二关键词作为第一关键词执行步骤202。如果一次检索步骤中的第二关键词收敛,电子设备可以输出本次执行检索步骤所得到的文档并可以对所得到的文档去重(如通过分析文档的来源存储地址或匹配文档相似度去重等),然后结束检索过程。
在本实施例中,步骤201、步骤2021、步骤2024、步骤2025、步骤203分别与前述实施例中的步骤101、步骤1021、步骤1023、步骤1024、步骤103相对应,在此不再赘述。
从图2能够看出,与图1的实施例不同的是,本实施例使用步骤2022、2023代替了流程100的实施例中步骤203。本实施例采用了步骤2022、2023有助于引入分类模型,通过加强分类模型的识别精度迭代获取第二关键词,增加了获取的第二关键词的准确度。
请参阅图4,作为对上述各图所示方法的实现,本申请提供了一种文档检索装置的一个实施例,该装置实施例与图1所示的方法实施例相对应,该装置具体可以应用于电子设备中。
如图4所示,本实施例的文档检索装置400包括:获取模块401,配置用于获取第一关键词;检索模块402,配置用于基于第一关键词,驱动以下单元执行如下检索步骤:检索单元4021,根据第一关键词,检索出与第一关键词相关的文档;提取单元4022,从文档中提取与第一关键词相关的第二关键词;判断单元4023,基于第二关键词与第一关键词的比较判断第二关键词是否收敛;输出单元4024,如果第二关键词收敛,则输出检索到的文档;反馈模块403,配置用于如果第二关键词不收敛,则将第二关键词作为第一关键词反馈给获取模块401。
在本实施例中,文档检索装置400的获取模块401可以从本地获取检索词作为第一关键词。该第一关键词可以是用户通过电子设备输入的关键词,也可以是检索分类的类别名称,例如,计算机编程语言等等。
在本实施例中,检索模块402可以根据获取模块402获取的第一关键词检索文档。首先,检索模块402的检索单元4021可以根据获取模块401获取的第一关键词从本地或远程地检索出与该第一关键词相关的文档。其中,与该第一关键词相关的文档可以是包含该第一关键词的文档,也可以是包含该第一关键词拆分、组合后的关键词的文档,还可以是该第一关键词所属领域的文档,等等。接着,提取单元4022基于检索单元4021检索到的文档获取与第一关键词相关的第二关键词。该第二关键词的关键词数量可以是一个关键词,也可以是多个。然后,判断单元4023可以将获取的第二关键词与获取模块401中获取的第一关键词相比较,以判断第二关键词是否收敛。再接着,如果判断单元4023判断第二关键词收敛,输出模块4024可以输出上述文档。
在本实施例中,如果检索模块402的判断单元4023判断第二关键词不收敛,反馈模块403可以将第二关键词作为第一关键词反馈给获取模块401,以使检索模块402重新驱动检索模块402的各单元进行文档检索。此时,反馈模块403可以与获取模块401相连。可选地,反馈模块403也可以直接将第二关键词作为第一关键词反馈给检索模块402。此时,反馈模块403可以与检索模块402的检索单元4021相连。
在本实施例的可选实现方式中,提取单元4022还包括:提取子单元(未示出),配置用于提取上述文档的关键词;确定子单元(未示出),配置用于基于预先训练的分类模型,将文档的关键词中符合以下筛选条件的关键词作为与第一关键词相关的第二关键词:关键词属于分类模型中第一关键词的分类下的关键词之一。此时,提取子单元(未示出)还可以配置用于通过包括但不限于以下的至少一种模型的方法提取文档的关键词:词频-逆向文件频率模型、隐含狄利克雷分布模型,等等。在一些实现中,确定子单元(未示出)还配置用于:将上述符合筛选条件的关键词在分类模型中所属分类的类别名称作为第二关键词。在另一些实现中,提取单元还配置用于将第一关键词作为第二关键词。
在本实施例的可选实现方式中,判断单元4023可以通过以下方式对第二关键词是否收敛进行判断:将第二关键词的数量与第一关键词的数量进行对比;若第二关键词的数量与第一关键词的数量相同,则第二关键词收敛;若第二关键词的数量大于第一关键词的数量,则第二关键词不收敛。
本领域技术人员可以理解,上述文档检索的装置400还包括一些其他公知结构,例如处理器、存储器等,为了不必要地模糊本公开的实施例,这些公知的结构在图4中未示出。
下面参考图5,其示出了适用于实现本申请实施例的电子设备或文档检索装置的计算机系统500的结构示意图。
如图5所示,系统500可以包括至少一个处理器501,例如CPU(Central Processing Unit,中央处理器),至少一个用户接口503或输出接口502,存储器504以及至少一个通信总线505。通信总线505用于实现上述组件之间的连接通信。用户接口503,可选地可以包括显示器,键盘或者点击设备(例如,鼠标,轨迹球(trackball),触感板或者触感显示屏)。存储器504可能包含高速RAM(Random AccessMemory,随机存取存储器),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。
在一些实现方式中,处理器501可以包括获取模块,其中,获取模块可以通过用户接口503获取第一关键词。处理器501也可以包括检索模块,以完成与第一关键词相关的文档的检索。处理器501还可以包括输出模块,其中,输出模块将检索到的文档通过输出接口502输出。存储器504可以存储有源文档库,以使处理器501的检索模块可以从该源文档库中检索文档。
在一些实施方式中,存储器504存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:
操作系统506,包含各种系统程序,用于实现各种基础业务以及处理基于硬件的任务。
应用程序507,包含各种应用程序,用于实现各种应用业务。
具体地,应用程序507可以包括本申请的文档检索的方法的应用程序,该应用程序可以在操作系统506下运行。可选地,存储器504还可以包括缓存单元。该缓存单元可以用于存储第一关键词、第二关键词及/或检索模块当前检索到的文档。
值得说明的是,本申请实施例中所涉及到的模块或单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块或单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取模块、检索模块、反馈模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,获取模块还可以被描述为“配置用于获取第一关键词的模块”。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入终端中的计算机可读存储介质。所述计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本申请的文档检索的方法。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (12)

1.一种文档检索的方法,其特征在于,所述方法包括:
获取第一关键词;
基于所述第一关键词,执行如下检索步骤:根据所述第一关键词,检索出与所述第一关键词相关的文档;基于所述文档,获取与所述第一关键词相关的第二关键词;基于所述第二关键词与所述第一关键词的比较判断所述第二关键词是否收敛;如果所述第二关键词收敛,则输出所述文档;
如果所述第二关键词不收敛,则将所述第二关键词作为第一关键词继续执行所述检索步骤。
2.根据权利要求1所述的方法,其特征在于,所述基于所述文档,获取与所述第一关键词相关的第二关键词包括:
提取所述文档的关键词;
基于预先训练的分类模型,将所述文档的关键词中符合以下筛选条件的关键词作为与所述第一关键词相关的第二关键词:所述关键词属于所述分类模型中所述第一关键词的分类下的关键词之一。
3.根据权利要求2所述的方法,其特征在于,所述基于所述文档,获取与所述第一关键词相关的第二关键词还包括:
将符合筛选条件的所述文档的关键词在分类模型中所属分类的类别名称作为第二关键词。
4.根据权利要求3所述的方法,其特征在于,所述基于所述文档,获取与所述第一关键词相关的第二关键词还包括:将所述第一关键词作为第二关键词。
5.根据权利要求2所述的方法,其特征在于,所述提取所述文档的关键词包括:通过词频-逆向文件频率模型、隐含狄利克雷分布模型中的至少一种模型提取所述文档的关键词。
6.根据权利要求1-5中任一所述的方法,其特征在于,所述判断所述第二关键词是否收敛包括:
将所述第二关键词的数量与所述第一关键词的数量进行对比;
若所述第二关键词的数量与所述第一关键词的数量相同,则判断为所述第二关键词收敛;
若所述第二关键词的数量大于所述第一关键词的数量,则判断为所述第二关键词不收敛。
7.一种文档检索的装置,其特征在于,所述装置包括:
获取模块,配置用于获取第一关键词;
检索模块,配置用于基于所述第一关键词,驱动以下单元执行如下检索步骤:检索单元,根据所述第一关键词,检索出与所述第一关键词相关的文档;提取单元,基于所述文档,获取与所述第一关键词相关的第二关键词;判断单元,基于所述第二关键词与所述第一关键词的比较判断所述第二关键词是否收敛;输出单元,如果所述第二关键词收敛,则输出所述文档;
反馈模块,配置用于如果所述第二关键词不收敛,则将所述第二关键词作为第一关键词反馈给所述获取模块。
8.根据权利要求7所述的装置,其特征在于,所述提取单元还包括:
提取子单元,配置用于提取所述文档的关键词;
确定子单元,配置用于基于预先训练的分类模型,将所述文档的关键词中符合以下筛选条件的关键词作为与所述第一关键词相关的第二关键词:所述关键词属于所述分类模型中所述第一关键词的分类下的关键词之一。
9.根据权利要求8所述的装置,其特征在于,所述确定子单元还配置用于:将符合筛选条件的所述文档的关键词在分类模型中所属分类的类别名称作为第二关键词。
10.根据权利要求9所述的装置,其特征在于,所述确定子单元还配置用于:将所述第一关键词作为第二关键词。
11.根据权利要求8所述的装置,其特征在于,所述提取子单元配置用于:通过词频-逆向文件频率模型、隐含狄利克雷分布模型中的至少一种模型提取所述文档的关键词。
12.根据权利要求7-11中任一所述的装置,其特征在于,所述判断单元还配置用于:
将所述第二关键词的数量与所述第一关键词的数量进行对比;
若所述第二关键词的数量与所述第一关键词的数量相同,则判断为所述第二关键词收敛;
若所述第二关键词的数量大于所述第一关键词的数量,则判断为所述第二关键词不收敛。
CN201510194479.1A 2015-04-22 2015-04-22 文档检索的方法和装置 Pending CN104765862A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510194479.1A CN104765862A (zh) 2015-04-22 2015-04-22 文档检索的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510194479.1A CN104765862A (zh) 2015-04-22 2015-04-22 文档检索的方法和装置

Publications (1)

Publication Number Publication Date
CN104765862A true CN104765862A (zh) 2015-07-08

Family

ID=53647690

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510194479.1A Pending CN104765862A (zh) 2015-04-22 2015-04-22 文档检索的方法和装置

Country Status (1)

Country Link
CN (1) CN104765862A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112988982A (zh) * 2021-05-17 2021-06-18 江苏联著实业股份有限公司 一种计算机比较空间的自主学习方法及系统
CN114706978A (zh) * 2022-03-08 2022-07-05 东风汽车集团股份有限公司 用于车机的信息检索方法及系统
CN116089599A (zh) * 2023-04-07 2023-05-09 北京澜舟科技有限公司 信息查询方法、系统以及存储介质
CN117112810A (zh) * 2023-07-12 2023-11-24 南京理工大学紫金学院 一种基于lda迭代检索文献数据集的全检索方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110137921A1 (en) * 2009-12-09 2011-06-09 International Business Machines Corporation Method, computer system, and computer program for searching document data using search keyword
CN103020213A (zh) * 2012-12-07 2013-04-03 福建亿榕信息技术有限公司 具有明显类别划分的非结构化电子文档的检索方法和系统
US20130212089A1 (en) * 2012-02-10 2013-08-15 Google Inc. Search Result Categorization
CN103678412A (zh) * 2012-09-21 2014-03-26 北京大学 一种文档检索的方法及装置
CN104516903A (zh) * 2013-09-29 2015-04-15 北大方正集团有限公司 关键词扩展方法及系统、及分类语料标注方法及系统
CN104516902A (zh) * 2013-09-29 2015-04-15 北大方正集团有限公司 语义信息获取方法及其对应的关键词扩展方法和检索方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110137921A1 (en) * 2009-12-09 2011-06-09 International Business Machines Corporation Method, computer system, and computer program for searching document data using search keyword
US20130212089A1 (en) * 2012-02-10 2013-08-15 Google Inc. Search Result Categorization
CN103678412A (zh) * 2012-09-21 2014-03-26 北京大学 一种文档检索的方法及装置
CN103020213A (zh) * 2012-12-07 2013-04-03 福建亿榕信息技术有限公司 具有明显类别划分的非结构化电子文档的检索方法和系统
CN104516903A (zh) * 2013-09-29 2015-04-15 北大方正集团有限公司 关键词扩展方法及系统、及分类语料标注方法及系统
CN104516902A (zh) * 2013-09-29 2015-04-15 北大方正集团有限公司 语义信息获取方法及其对应的关键词扩展方法和检索方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112988982A (zh) * 2021-05-17 2021-06-18 江苏联著实业股份有限公司 一种计算机比较空间的自主学习方法及系统
CN112988982B (zh) * 2021-05-17 2021-08-24 江苏联著实业股份有限公司 一种计算机比较空间的自主学习方法及系统
CN114706978A (zh) * 2022-03-08 2022-07-05 东风汽车集团股份有限公司 用于车机的信息检索方法及系统
CN116089599A (zh) * 2023-04-07 2023-05-09 北京澜舟科技有限公司 信息查询方法、系统以及存储介质
CN117112810A (zh) * 2023-07-12 2023-11-24 南京理工大学紫金学院 一种基于lda迭代检索文献数据集的全检索方法

Similar Documents

Publication Publication Date Title
US20220261427A1 (en) Methods and system for semantic search in large databases
US20200410157A1 (en) Automatic hyperlinking of documents
Meghini et al. Conceptual modeling of multimedia documents
EP2996053A1 (en) Classification system with methodology for efficient verification
US20170075958A1 (en) Visual Interactive Search
WO2021003932A1 (zh) 文件管理方法、装置、计算机设备和存储介质
US20140289675A1 (en) System and Method of Mapping Products to Patents
US20140207782A1 (en) System and method for computerized semantic processing of electronic documents including themes
Bijalwan et al. Machine learning approach for text and document mining
US10482146B2 (en) Systems and methods for automatic customization of content filtering
Trillo et al. Using semantic techniques to access web data
CN110178129B (zh) 生成用于图像处理操作的目标图像的语义表示的系统和方法
Silva et al. Tag recommendation for georeferenced photos
Roopak et al. OntoKnowNHS: ontology driven knowledge centric novel hybridised semantic scheme for image recommendation using knowledge graph
CN112487161A (zh) 一种面向企业需求的专家推荐方法、装置、介质及设备
CN104765862A (zh) 文档检索的方法和装置
Zhao et al. WTL-CNN: A news text classification method of convolutional neural network based on weighted word embedding
Xiong et al. XRR: Extreme multi-label text classification with candidate retrieving and deep ranking
Nie et al. Statistical entity extraction from the web
KR102156287B1 (ko) 처방적 분석 기반 지능형 연구정보 고부가 가치화 제공 플랫폼 및 그 방법
WO2011022867A1 (en) Method and apparatus for searching electronic documents
AU2018313274B2 (en) Diversity evaluation in genealogy search
Shete et al. Survey Paper on Web Content Extraction & Classification
WO2022105780A1 (zh) 推荐方法、装置、电子设备、存储介质
Huang et al. Rough-set-based approach to manufacturing process document retrieval

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150708