CN103838735A - 一种提高检索效率和质量的数据检索方法 - Google Patents

一种提高检索效率和质量的数据检索方法 Download PDF

Info

Publication number
CN103838735A
CN103838735A CN201210475837.2A CN201210475837A CN103838735A CN 103838735 A CN103838735 A CN 103838735A CN 201210475837 A CN201210475837 A CN 201210475837A CN 103838735 A CN103838735 A CN 103838735A
Authority
CN
China
Prior art keywords
user
search
query
information
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210475837.2A
Other languages
English (en)
Inventor
刘博�
梅昱婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd
Original Assignee
DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd filed Critical DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd
Priority to CN201210475837.2A priority Critical patent/CN103838735A/zh
Publication of CN103838735A publication Critical patent/CN103838735A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本发明公开了一种提高检索效率和质量的数据检索方法,包括以下步骤:构建基于数据库的双向索引,接收用户的单关键字查询或者多关键字和多语句的查询;相关度排序,包括按照按频次或权值排定次序和按页面被访问或被引用的次数排序;设计用户接口,提交搜索请求,表现搜索结果,分析搜索行为;调整VSM检索模型排序。本发明采用相关度排序技术和用户接口技术提高检索效率和质量,使得搜索引擎能理解用户的检索意图并在最短的时间内使用户检索到最相关信息,并对VSM检索模型排序方法进行了调整,使得其适合于实际情况中查询向量能比较近似地代表用户查询目标文档的情况。

Description

一种提高检索效率和质量的数据检索方法
技术领域
本发明涉及一种Web数据检索技术,特别是一种提高检索效率和质量的数据检索方法。
背景技术
信息检索的核心就是判断待检索文章与用户查询式是否相关,通常通过一个相关性评价的数据检索模型来实现。在这个数据检索模型中给出了文档的表示方式、检索的表示方式以及检索与文档的匹配过程。检索技术发展至今,有很多不同的检索模型,最经典的模型有布尔逻辑模型、向量空间模型、概率论模型及神经网络模型等。
布尔逻辑模型是最简单的检索模型,也是其他检索模型的基础。在设计信息检索系统时,它是用得最普遍的模型,尤其是在商用信息检索系统中。在布尔模型中,一个文档通过一个关键词条的集合来表示,这些词条都来自一个词典。在查询与文档匹配的过程中,主要看该文档中的词条是否满足查询的条件。向量空间模型是实验环境中应用最多的检索模型。在向量模型中,信息获取系统如果涉及n个关键词,则建立n维的向量空间,每一维都代表不同的关键词,信息库中的文本以及用户的查询都通过该空间中的向量来表示。信息检索的概率论模型的基础是概率排序规则:如果文档按照与查询的概率相关性的大小排序,那么排在前面的文档是最有可能被检索的文档。布尔模型主要缺点包括对于一个信息获取系统的初学者来说,由于很难掌握布尔操作符的使用方法,因此很难将一个查询公式化;不能够在查询串中说明关键词的相对重要性,即在布尔模型中,查询串中的关键词是被对等看待的;在布尔模型中匹配函数由布尔逻辑的基本法则确定。所检索出的文档或者与查询相关,或者与查询无关。很难将文档按照与查询串相关性来排序。但是,布尔模型实现起来比较容易,而且计算的代价相对较少;较其他模型中的查询语言更容易表达;该模型适合于那些明确知道自己想要查找什么信息的用户。概率论模型要明显优于布尔模型,但是比向量模型略差,概率论模型的主要缺点在于与向量模型一样,关键词之间是假设相互独立的;在没有获得样本文档之前,即没有相关的文档之前,无法估计词条的相关性。
搜索引擎作为信息检索的工具,应该能理解用户的检索意图并在最短的时间内使用户检索到最相关信息。提高搜索引擎检索效率和检索质量是其中的重要技术。目前主要涉及相关度排序技术和用户接口技术两方面。
发明内容
为解决现有技术存在的上述问题,本发明通过运用相关度排序技术和用户接口技术,设计一种能理解用户的检索意图并在最短的时间内使用户检索到最相关信息的提高了检索效率和质量的方法。
为了实现上述目的,本发明的技术方案如下:一种提高检索效率和质量的数据检索方法,包括以下步骤:
A、构建基于数据库的双向索引,接收用户的单关键字查询或者多关键字和多语句的查询。
B、相关度排序
B1、按频次或权值排定次序。如果一个页面包含了越多的关键词,其搜索目标的相关性应该越好。
B2、按页面被访问或被引用的次数排序。本发明中让搜索引擎会记录所搜索到的页面的被引用次数,从而判断该页面被访问的频率。
对于一个查询q,搜索引擎首先利用相似度函数找到k个页面,然后利用下面的公式计算每个页面的重要性。
Rankingscore(q,d)=α*sim(q,d)+β*R(d)
其中,α,β∈[0,1],α+β=1,sim(q,d)是相似度函数,sim(q,d),R(d)∈[0,1]。
C、提交搜索请求
采用多语言查询技术,当用户使用一种语言输入查询关键词时(例如使用中文),本发明除了使用这个关键词查询外,还会同时使用相应的英文关键词查询,这样就可以同时得到各种语言的查询结果。由于中文编码的多样性,多语言查询技术又有了其特殊意义,引擎可以在各种中文编码GB、BIG5等等)之间转换,从而可以只使用一种中文编码提交查询请求,而同时查询出使用不同中文编码的信息。
同时也可以采用模糊语义查询技术,当用户提交一个关键词后,本发明还可以使用这个关键词的同义词、近义词等查询,从而使得查询更加准确。当用户直接使用自然语言来描述搜索请求时,本发明会将用户的自然语言问句转换成搜索引擎可以理解的内部搜索请求。
D、表现搜索结果
D1、进行相关度评价和排序,使用户对搜索结果能够有一个更好的取舍;
D2、提供“网页快照”或称“cache”功能,使用户在无法连接到相关主机的情况下也可以浏览其信息;
D3、提供“类似网页”功能,便于用户快速获得与查询相关的信息
D4、提供“二次检索”功能。按照一定的条件对搜索结果进一步进行优化,可以再选择类别、相关词等。
E、分析搜索行为
本发明充分考虑用户的个性搜索,跟踪分析用户的搜索行为,然后通过进行“群体行为分析”和“个性化搜索”并积累用户的搜索个性化数据,一方面使用户的搜索更加精确,更符合每个用户的需求。另一方面可以变传统的信息拉取技术(即由用户主动从信源拉取信息)为个性化的信息推送(即由信源将信息主动推送给用户)或信息推拉技术(即在信息获取过程中既有来自信源的推送也有用户自身的主动拉取)。
F、调整VSM检索模型排序
在实际中,用户输入的关键词很有限,一般3至8个,而文档向量一般30-60维,这样查询向量就很难近似代表目标文档向量,同时文档集中查询关键词的权重信息对查询结果非常重要。考虑到以上情况当前实际应用中对相似度计算方法进行了调整,最简单的相似度计算方法是直接计算查询串与文档向量间的点集,不再标准化。即
sim ( d , q ) = Σ i = 1 m w i q i
其中,d代表文档向量,q代表查询向量,qi为q中的第i个词条的权重,wi为q中第i个词条在文档中的权重。
考虑到文档和查询向量的权重与文档和查询串的长度紧密相关,因此上面的公式显得不科学。目前比较常用的相似度计算方法是余弦表示法,在该方法中考虑到了文本的长度和查询串的长度:
sim ( d , q ) = Σ i = 1 m w i q i | d | × | q |
其中,d代表文档向量,q代表查询向量,qi为q中的第i个词条的权重,wi为q中第i个词条在文档中的权重,|d|与|q|分别表示文档与查询串的长度。
与现有技术相比,本发明具有以下有益效果:
1、由于本发明使用基于数据库的双向索引,提高了检索效率和检索质量。
2、本发明采用相关度排序技术和用户接口技术提高检索效率和质量,使得搜索引擎能理解用户的检索意图并在最短的时间内使用户检索到最相关信息。
3、本发明调整VSM检索模型排序方法,使得其适合于实际情况中查询向量能比较近似地代表用户查询目标文档的情况。
附图说明
本发明共有附图1张,其中:
图1是本发明中数据检索工作流程示意图。
具体实施方式
下面结合附图对本发明进行进一步地描述。如图1所示,其工作流程如下:
A、构建基于数据库的双向索引,接收用户的单关键字查询或者多关键字和多语句的查询。
B、相关度排序
B1、按频次或权值排定次序。如果一个页面包含了越多的关键词,其搜索目标的相关性应该越好。
B2、按页面被访问或被引用的次数排序。本发明中让搜索引擎会记录所搜索到的页面的被引用次数,从而判断该页面被访问的频率。
对于一个查询q,搜索引擎首先利用相似度函数找到k个页面,然后利用下面的公式计算每个页面的重要性。
Rankingscore(q,d)=α*sim(q,d)+β*R(d)
其中,α,β∈[0,1],α+β=1,sim(q,d)是相似度函数,sim(q,d),R(d)∈[0,1]。
C、提交搜索请求
采用多语言查询技术,当用户使用一种语言输入查询关键词时(例如使用中文),本发明除了使用这个关键词查询外,还会同时使用相应的英文关键词查询,这样就可以同时得到各种语言的查询结果。由于中文编码的多样性,多语言查询技术又有了其特殊意义,引擎可以在各种中文编码GB、BIG5等等)之间转换,从而可以只使用一种中文编码提交查询请求,而同时查询出使用不同中文编码的信息。
同时也可以采用模糊语义查询技术,当用户提交一个关键词后,本发明还可以使用这个关键词的同义词、近义词等查询,从而使得查询更加准确。当用户直接使用自然语言来描述搜索请求时,本发明会将用户的自然语言问句转换成搜索引擎可以理解的内部搜索请求。
D、表现搜索结果
D1、进行相关度评价和排序,使用户对搜索结果能够有一个更好的取舍;
D2、提供“网页快照”或称“cache”功能,使用户在无法连接到相关主机的情况下也可以浏览其信息;
D3、提供“类似网页”功能,便于用户快速获得与查询相关的信息
D4、提供“二次检索”功能。按照一定的条件对搜索结果进一步进行优化,可以再选择类别、相关词等。
E、分析搜索行为
本发明充分考虑用户的个性搜索,跟踪分析用户的搜索行为,然后通过进行“群体行为分析”和“个性化搜索”并积累用户的搜索个性化数据,一方面使用户的搜索更加精确,更符合每个用户的需求。另一方面可以变传统的信息拉取技术(即由用户主动从信源拉取信息)为个性化的信息推送(即由信源将信息主动推送给用户)或信息推拉技术(即在信息获取过程中既有来自信源的推送也有用户自身的主动拉取)。
F、调整VSM检索模型排序
在实际中,用户输入的关键词很有限,一般3至8个,而文档向量一般30-60维,这样查询向量就很难近似代表目标文档向量,同时文档集中查询关键词的权重信息对查询结果非常重要。考虑到以上情况当前实际应用中对相似度计算方法进行了调整,最简单的相似度计算方法是直接计算查询串与文档向量间的点集,不再标准化。即
sim ( d , q ) = Σ i = 1 m w i q i
其中,d代表文档向量,q代表查询向量,qi为q中的第i个词条的权重,wi为q中第i个词条在文档中的权重。
考虑到文档和查询向量的权重与文档和查询串的长度紧密相关,因此上面的公式显得不科学。目前比较常用的相似度计算方法是余弦表示法,在该方法中考虑到了文本的长度和查询串的长度:
sim ( d , q ) = Σ i = 1 m w i q i | d | × | q |
其中,d代表文档向量,q代表查询向量,qi为q中的第i个词条的权重,wi为q中第i个词条在文档中的权重,|d|与|q|分别表示文档与查询串的长度。

Claims (1)

1.一种提高检索效率和质量的数据检索方法,其特征在于:包括以下步骤:
A、构建基于数据库的双向索引,接收用户的单关键字查询或者多关键字和多语句的查询;
B、相关度排序
B1、按频次或权值排定次序;如果一个页面包含了越多的关键词,其搜索目标的相关性应该越好;
B2、按页面被访问或被引用的次数排序;本发明中让搜索引擎会记录所搜索到的页面的被引用次数,从而判断该页面被访问的频率;
对于一个查询q,搜索引擎首先利用相似度函数找到k个页面,然后利用下面的公式计算每个页面的重要性;
Rankingscore(q,d)=α*sim(q,d)+β*R(d)
其中,α,β∈[0,1],α+β=1,sim(q,d)是相似度函数,sim(q,d),R(d)∈[0,1];
C、提交搜索请求
采用多语言查询技术,当用户使用一种语言输入查询关键词时之间转换,从而可以只使用一种中文编码提交查询请求,而同时查询出使用不同中文编码的信息;
同时也可以采用模糊语义查询技术,当用户提交一个关键词后,本发明还可以使用这个关键词的同义词、近义词等查询,从而使得查询更加准确;当用户直接使用自然语言来描述搜索请求时,本发明会将用户的自然语言问句转换成搜索引擎可以理解的内部搜索请求;
D、表现搜索结果
D1、进行相关度评价和排序,使用户对搜索结果能够有一个更好的取舍;
D2、提供“网页快照”或称“cache”功能,使用户在无法连接到相关主机的情况下也可以浏览其信息;
D3、提供“类似网页”功能,便于用户快速获得与查询相关的信息
D4、提供“二次检索”功能;按照一定的条件对搜索结果进一步进行优化,可以再选择类别、相关词等;
E、分析搜索行为
本发明充分考虑用户的个性搜索,跟踪分析用户的搜索行为,然后通过进行“群体行为分析”和“个性化搜索”并积累用户的搜索个性化数据,一方面使用户的搜索更加精确,更符合每个用户的需求;另一方面可以变传统的信息拉取技术即由用户主动从信源拉取信息,为个性化的信息推送即由信源将信息主动推送给用户,或信息推拉技术即在信息获取过程中既有来自信源的推送也有用户自身的主动拉取;
F、调整VSM检索模型排序
在实际中,用户输入的关键词很有限,一般3至8个,而文档向量一般30-60维,这样查询向量就很难近似代表目标文档向量,同时文档集中查询关键词的权重信息对查询结果非常重要;考虑到以上情况当前实际应用中对相似度计算方法进行了调整,最简单的相似度计算方法是直接计算查询串与文档向量间的点集,不再标准化;即
sim ( d , q ) = Σ i = 1 m w i q i
其中,d代表文档向量,q代表查询向量,qi为q中的第i个词条的权重,wi为q中第i个词条在文档中的权重;
考虑到文档和查询向量的权重与文档和查询串的长度紧密相关,因此上面的公式显得不科学;目前比较常用的相似度计算方法是余弦表示法,在该方法中考虑到了文本的长度和查询串的长度:
sim ( d , q ) = Σ i = 1 m w i q i | d | × | q |
其中,d代表文档向量,q代表查询向量,qi为q中的第i个词条的权重,wi为q中第i个词条在文档中的权重,|d|与|q|分别表示文档与查询串的长度。
CN201210475837.2A 2012-11-21 2012-11-21 一种提高检索效率和质量的数据检索方法 Pending CN103838735A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210475837.2A CN103838735A (zh) 2012-11-21 2012-11-21 一种提高检索效率和质量的数据检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210475837.2A CN103838735A (zh) 2012-11-21 2012-11-21 一种提高检索效率和质量的数据检索方法

Publications (1)

Publication Number Publication Date
CN103838735A true CN103838735A (zh) 2014-06-04

Family

ID=50802249

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210475837.2A Pending CN103838735A (zh) 2012-11-21 2012-11-21 一种提高检索效率和质量的数据检索方法

Country Status (1)

Country Link
CN (1) CN103838735A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653568A (zh) * 2014-12-04 2016-06-08 中兴通讯股份有限公司 一种分析用户行为的方法及装置
CN106815278A (zh) * 2015-11-27 2017-06-09 北京国双科技有限公司 网页内容对搜索引擎可见度的分析方法及装置
CN107292690A (zh) * 2016-03-31 2017-10-24 杨舜凯 一种基于神经网络的跨界易物平台实现方法及平台
WO2017193865A1 (zh) * 2016-05-09 2017-11-16 广州神马移动信息科技有限公司 一种信息搜索方法及装置
CN107832412A (zh) * 2017-11-06 2018-03-23 浙江工业大学 一种基于文献引用关系的刊物聚类方法
CN108108380A (zh) * 2016-11-25 2018-06-01 阿里巴巴集团控股有限公司 搜索排序方法、搜索排序装置、搜索方法和搜索装置
CN108170784A (zh) * 2017-12-26 2018-06-15 佛山市道静科技有限公司 一种提取互联网上内容信息的方法及系统
CN109660580A (zh) * 2017-10-11 2019-04-19 苏州跃盟信息科技有限公司 一种信息推送方法及装置
WO2019085856A1 (zh) * 2017-10-31 2019-05-09 北京国双科技有限公司 文本资源的推送方法、装置、存储介质及处理器
CN109948044A (zh) * 2017-12-14 2019-06-28 微软技术许可有限责任公司 基于向量最近邻搜索的文档查询
CN111161706A (zh) * 2018-10-22 2020-05-15 阿里巴巴集团控股有限公司 交互方法、装置、设备和系统
CN112100213A (zh) * 2020-09-07 2020-12-18 中国人民解放军海军工程大学 船舶设备技术数据搜索排序方法
CN112785400A (zh) * 2021-01-12 2021-05-11 四川天行健穗金科技有限公司 一种用于去财税数据的智能检索方法及系统
TWI728611B (zh) * 2019-12-20 2021-05-21 遠東科技大學 結合查詢關鍵字擴展技術之花語查詢系統
CN114168708A (zh) * 2021-11-15 2022-03-11 哈尔滨工业大学 一种基于多域特征的个性化生物通路检索方法
CN114969310A (zh) * 2022-06-07 2022-08-30 南京云问网络技术有限公司 一种面向多维数据的分段式检索排序系统设计方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102135985A (zh) * 2011-01-28 2011-07-27 百度在线网络技术(北京)有限公司 调用第三方搜索引擎搜索结果的搜索方法和搜索系统
US20110218989A1 (en) * 2009-09-23 2011-09-08 Alibaba Group Holding Limited Information Search Method and System
CN102207973A (zh) * 2011-06-22 2011-10-05 上海互联网软件有限公司 一种模糊检索系统及其检索方法
CN102609455A (zh) * 2012-01-12 2012-07-25 北京中科大洋科技发展股份有限公司 一种实现汉语同音字检索的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110218989A1 (en) * 2009-09-23 2011-09-08 Alibaba Group Holding Limited Information Search Method and System
CN102135985A (zh) * 2011-01-28 2011-07-27 百度在线网络技术(北京)有限公司 调用第三方搜索引擎搜索结果的搜索方法和搜索系统
CN102207973A (zh) * 2011-06-22 2011-10-05 上海互联网软件有限公司 一种模糊检索系统及其检索方法
CN102609455A (zh) * 2012-01-12 2012-07-25 北京中科大洋科技发展股份有限公司 一种实现汉语同音字检索的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘峰: "通用中英文专业搜索引擎技术的研究及应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653568A (zh) * 2014-12-04 2016-06-08 中兴通讯股份有限公司 一种分析用户行为的方法及装置
CN106815278A (zh) * 2015-11-27 2017-06-09 北京国双科技有限公司 网页内容对搜索引擎可见度的分析方法及装置
CN106815278B (zh) * 2015-11-27 2020-02-28 北京国双科技有限公司 网页内容对搜索引擎可见度的分析方法及装置
CN107292690A (zh) * 2016-03-31 2017-10-24 杨舜凯 一种基于神经网络的跨界易物平台实现方法及平台
WO2017193865A1 (zh) * 2016-05-09 2017-11-16 广州神马移动信息科技有限公司 一种信息搜索方法及装置
CN108108380A (zh) * 2016-11-25 2018-06-01 阿里巴巴集团控股有限公司 搜索排序方法、搜索排序装置、搜索方法和搜索装置
CN109660580A (zh) * 2017-10-11 2019-04-19 苏州跃盟信息科技有限公司 一种信息推送方法及装置
CN109660580B (zh) * 2017-10-11 2021-06-22 苏州跃盟信息科技有限公司 一种信息推送方法及装置
WO2019085856A1 (zh) * 2017-10-31 2019-05-09 北京国双科技有限公司 文本资源的推送方法、装置、存储介质及处理器
CN107832412B (zh) * 2017-11-06 2020-06-30 浙江工业大学 一种基于文献引用关系的刊物聚类方法
CN107832412A (zh) * 2017-11-06 2018-03-23 浙江工业大学 一种基于文献引用关系的刊物聚类方法
CN109948044A (zh) * 2017-12-14 2019-06-28 微软技术许可有限责任公司 基于向量最近邻搜索的文档查询
CN108170784A (zh) * 2017-12-26 2018-06-15 佛山市道静科技有限公司 一种提取互联网上内容信息的方法及系统
CN111161706A (zh) * 2018-10-22 2020-05-15 阿里巴巴集团控股有限公司 交互方法、装置、设备和系统
TWI728611B (zh) * 2019-12-20 2021-05-21 遠東科技大學 結合查詢關鍵字擴展技術之花語查詢系統
CN112100213A (zh) * 2020-09-07 2020-12-18 中国人民解放军海军工程大学 船舶设备技术数据搜索排序方法
CN112785400A (zh) * 2021-01-12 2021-05-11 四川天行健穗金科技有限公司 一种用于去财税数据的智能检索方法及系统
CN114168708A (zh) * 2021-11-15 2022-03-11 哈尔滨工业大学 一种基于多域特征的个性化生物通路检索方法
CN114168708B (zh) * 2021-11-15 2022-06-14 哈尔滨工业大学 一种基于多域特征的个性化生物通路检索方法
CN114969310A (zh) * 2022-06-07 2022-08-30 南京云问网络技术有限公司 一种面向多维数据的分段式检索排序系统设计方法
CN114969310B (zh) * 2022-06-07 2024-04-05 南京云问网络技术有限公司 一种面向多维数据的分段式检索排序系统设计方法

Similar Documents

Publication Publication Date Title
CN103838735A (zh) 一种提高检索效率和质量的数据检索方法
CN103838833B (zh) 基于相关词语语义分析的全文检索系统
CN100416570C (zh) 一种基于问答库的中文自然语言问答方法
CN100433007C (zh) 提供搜索结果的方法
CN110442777B (zh) 基于bert的伪相关反馈模型信息检索方法及系统
CN107247745B (zh) 一种基于伪相关反馈模型的信息检索方法及系统
CN102253982B (zh) 一种基于查询语义和点击流数据的查询建议方法
CN103377226B (zh) 一种智能检索方法及其系统
US9734192B2 (en) Producing sentiment-aware results from a search query
CN111428047B (zh) 一种基于ucl语义标引的知识图谱构建方法及装置
CN102156711B (zh) 一种基于云存储的电力全文检索方法及系统
CN103886099B (zh) 一种模糊概念的语义检索系统及方法
US9971828B2 (en) Document tagging and retrieval using per-subject dictionaries including subject-determining-power scores for entries
CN103744956A (zh) 一种关键词的多样化拓展方法
US11204920B2 (en) Utilizing search engine relevancy ranking models to generate normalized and comparable search engine scores
CN103218373A (zh) 一种相关搜索系统、方法及装置
CN112507109A (zh) 一种基于语义分析与关键词识别的检索方法和装置
CN105956010B (zh) 基于分布式表征和局部排序的分布式信息检索集合选择方法
Xu et al. Improving pseudo-relevance feedback with neural network-based word representations
CN103324707A (zh) 一种基于半监督聚类的查询扩展方法
Huang et al. Design and implementation of oil and gas information on intelligent search engine based on knowledge graph
CN105912649A (zh) 一种数据库模糊检索方法和系统
CN102508920B (zh) 一种基于Boosting分类算法的信息检索方法
Dai RETRACTED ARTICLE: Research on Chinese and English language information retrieval algorithm based on bilingual theme model
CN109101591A (zh) 基于知识库的拼音词义检索方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140604

RJ01 Rejection of invention patent application after publication