CN111259145A - 基于情报数据的文本检索分类方法、系统及存储介质 - Google Patents
基于情报数据的文本检索分类方法、系统及存储介质 Download PDFInfo
- Publication number
- CN111259145A CN111259145A CN202010048074.8A CN202010048074A CN111259145A CN 111259145 A CN111259145 A CN 111259145A CN 202010048074 A CN202010048074 A CN 202010048074A CN 111259145 A CN111259145 A CN 111259145A
- Authority
- CN
- China
- Prior art keywords
- keyword
- keywords
- documents
- classification
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于情报数据的文本检索分类方法、系统及存储介质,方法包括:对OCR识别出来的文档进行采集,得到非结构化文档,并将文档存入数据库;通过人工或机器自动生成关键词字典,并对关键词字典进行归类;使用已分类的关键词字典对文档进行处理,基于关键词生成倒排索引,其中,在生成倒排索引时,增加每个所述关键词所在的位置信息;根据关键词所在的分类对文档进行分类标注,并将得到的分类结果存入数据库;对分类结果通过机器学习和/或人工标注方式生成新的词汇,并对新的词汇重新进行分类,将新的词汇存入所述关键词字典。本发明在生产索引的时候,增加每个关键字所在的位置信息,因加入了位置相关度信息,使得分类更准确。
Description
技术领域
本发明涉及情报检索技术领域,尤其涉及一种基于情报数据的文本检索分类方法、系统及存储介质。
背景技术
目前文本分类的方法有很多,基于统计的分类方法是通过模型对文本数据进行分类,分类性能比较好的方法有KNN、SVM等,但是这类方法有局限性,比如语料不全、训练样本的数量不够或者质量不佳等都会影响文本的分类效果。此外,在资料搜索引擎中,目前lucene搜索引擎的核心文档打分算法没有考虑关键词在文档中的位置,当用户搜索多个关键词组合时,这个算法不会考虑关键词的顺序,比如“中国北京”两个关键词,它只要出现次数多打分就越高,但实际的文档出现了大量的“中国”关键词,而且“北京”只出现少量,而且都跟“中国”这个关键词离得很远,这样的文档打分高,反而连续出现“北京中国”,但频次不高的文档打分低,结果就不符合用户的期望,因此,现有的检索分类方法不准确。
发明内容
本发明的目的是提出了一种基于情报数据的文本检索分类方法、系统及存储介质,以解决原有打分算法位置不相关的问题,提高检索分类的准确性。
为实现上述目的,本发明提供的一种基于情报数据的文本检索分类方法,包括以下步骤:
对OCR识别出来的文档进行采集,得到非结构化文档,并将所述文档存入数据库;
通过人工或机器自动生成关键词字典,并对所述关键词字典进行归类;
使用已分类的关键词字典对所述文档进行处理,基于关键词生成倒排索引,其中,在生成倒排索引时,增加每个所述关键词所在的位置信息;
根据所述关键词所在的分类对所述文档进行分类标注,并将得到的分类结果存入数据库;
对所述分类结果通过机器学习和/或人工标注方式生成新的词汇,并对新的词汇重新进行分类,将所述新的词汇存入所述关键词字典。
其中,所述方法还包括:
在接收到用户基于待查询关键词的查询请求时,基于所述关键词字典计算所述待查询关键词的相关度,将所述待查询关键词的相关度乘以位置相关的权重,所述位置相关的权重基于所述待查询关键词所在的位置信息获得;
根据乘以位置相关的权重后的待查询关键词的相关度,并基于预设的打分公式对数据库中的文档进行全文检索排序,并将检索结果归类到所述待查询关键词所在的类别;
将检索结果呈现给用户。
其中,所述打分公式为:
score(q,d)=distance(q,d)×queryNorm(q)×
∑tinq(t∫(tind)×idf(t)2×t.getBost()×norm(t,d);
其中,distance(q,d)为打分参数;
queryNorm(q)为计算每个查询条目的方差和;
t∫(tind)为Term t在文档d中出现的词频;
idf(t)为Term t在几篇文档中出现过;
t.getBost()为查询语句中每个词的权重;
norm(t,d)的含义为标准化因子。
∑(qfirst-qlast):待查询关键词在文档中任意一组的位置间距求和。
其中,位置相关的关键词特征提取公式为:
D(q):为某个关键字组合的特征向量;
P(q,d):待查询关键字q组合在文档d中出现的次数;
∑(qfirst-qlast):待查询关键字在文档中任意一组的位置间距求和;
qfirst:每组关键字中第一个词的位置;
qlast:每组关键字中最后一个词的位置;
P(q):带查询关键字在字典中的位置。
此外,本发明还提出一种基于情报数据的文本检索分类系统,包括:
采集模块,用于对OCR识别出来的文档进行采集,得到非结构化文档,并将所述文档存入数据库;
归类模块,用于通过人工或机器自动生成关键词字典,并对所述关键词字典进行归类;
处理模块,用于使用已分类的关键词字典对所述文档进行处理,基于关键词生成倒排索引,其中,在生成倒排索引时,增加每个所述关键词所在的位置信息;
分类模块,用于根据所述关键词所在的分类对所述文档进行分类标注,并将得到的分类结果存入数据库,以及对所述分类结果通过机器学习和/或人工标注方式生成新的词汇,并对新的词汇重新进行分类,将所述新的词汇存入所述关键词字典。
此外,本发明还提出一种计算机存储介质,所述计算机存储介质上存储有计算机程序,所述计算机程序被所述处理器运行时实现如上所述的方法的步骤。
本发明的有益效果为:通过对OCR识别出来的文档进行采集,得到非结构化文档,并将所述文档存入数据库;通过人工或机器自动生成关键词字典,并对所述关键词字典进行归类;使用已分类的关键词字典对所述文档进行处理,基于关键词生成倒排索引,其中,在生成倒排索引时,增加每个所述关键词所在的位置信息;根据所述关键词所在的分类对所述文档进行分类标注,并将得到的分类结果存入数据库;对所述分类结果通过机器学习和/或人工标注方式生成新的词汇,并对新的词汇重新进行分类,将所述新的词汇存入所述关键词字典。本发明针对原有打分算法位置不相关的问题,在生产索引的时候,增加每个关键字所在的位置信息,然后查询的时候计算相关度时,乘以位置相关的权重,位置越接近的两组关键词得分越高,这样查询出来的结果符合预期。因加入了位置相关度信息,使得分类更准确。
附图说明
图1是本发明基于情报数据的文本检索分类方法的流程示意图;
图2是本发明基于情报数据的文本检索分类方法的原理示意图;
图3是新的排序算法打分公式示意图;
图4是分类算法得到的值是关键字组合在字典中的位置矢量与关键字组合在文档中的位置矢量之和示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
具体地,如图1及图2所示,本发明提出一种基于情报数据的文本检索分类方法,其特征在于,包括以下步骤:
S1,对OCR识别出来的文档进行采集,得到非结构化文档,并将所述文档存入数据库;
S2,通过人工或机器自动生成关键词字典,并对所述关键词字典进行归类;
S3,使用已分类的关键词字典对所述文档进行处理,基于关键词生成倒排索引,其中,在生成倒排索引时,增加每个所述关键词所在的位置信息;
S4,根据所述关键词所在的分类对所述文档进行分类标注,并将得到的分类结果存入数据库;
S5,对所述分类结果通过机器学习和/或人工标注方式生成新的词汇,并对新的词汇重新进行分类,将所述新的词汇存入所述关键词字典。
进一步地,所述方法还包括:
在接收到用户基于待查询关键词的查询请求时,基于所述关键词字典计算所述待查询关键词的相关度,将所述待查询关键词的相关度乘以位置相关的权重,所述位置相关的权重基于所述待查询关键词所在的位置信息获得;
根据乘以位置相关的权重后的待查询关键词的相关度,并基于预设的打分公式对数据库中的文档进行全文检索排序,并将检索结果归类到所述待查询关键词所在的类别;
将检索结果呈现给用户。
其中,所述打分公式为:
score(q,d)=distance(q,d)×queryNorm(q)×
∑tinq(t∫(tind)×idf(t)2×t.getBost()×norm(t,d);
其中,distance(q,d)为打分参数;
queryNorm(q)为计算每个查询条目的方差和;
t∫(tind)为Term t在文档d中出现的词频;
idf(t)为Term t在几篇文档中出现过;
t.getBost()为查询语句中每个词的权重;
norm(t,d)的含义为标准化因子。
Σ(qfirst-qlast):待查询关键词在文档中任意一组的位置间距求和。
其中,位置相关的关键词特征提取公式为:
D(q):为某个关键字组合的特征向量;
P(q,d):待查询关键字q组合在文档d中出现的次数;
Σ(qfirst-qlast):待查询关键字在文档中任意一组的位置间距求和;
qfirst:每组关键字中第一个词的位置;
qlast:每组关键字中最后一个词的位置;
P(q):带查询关键字在字典中的位置。
此外,本发明还提出一种基于情报数据的文本检索分类系统,包括:
采集模块,用于对OCR识别出来的文档进行采集,得到非结构化文档,并将所述文档存入数据库;
归类模块,用于通过人工或机器自动生成关键词字典,并对所述关键词字典进行归类;
处理模块,用于使用已分类的关键词字典对所述文档进行处理,基于关键词生成倒排索引,其中,在生成倒排索引时,增加每个所述关键词所在的位置信息;
分类模块,用于根据所述关键词所在的分类对所述文档进行分类标注,并将得到的分类结果存入数据库,以及对所述分类结果通过机器学习和/或人工标注方式生成新的词汇,并对新的词汇重新进行分类,将所述新的词汇存入所述关键词字典。
此外,本发明还提出一种计算机存储介质,所述计算机存储介质上存储有计算机程序,所述计算机程序被所述处理器运行时实现如上所述的方法的步骤。
相比现有技术,本发明提出的基于情报数据的文本检索分类方法,根据关键字快速检索文档,并按相关度对文档排序;将已存在的文档进行归类,根据预设的关键词进行全文检索,并将检测结果归类到预设关键词所在的类别。
在日常工作中,可以通过电脑、手机登录网站进行科技情报的模糊检索。具体应用如下:
1、针对科研项目预研方面,用户可以通过应用平台填写科研项目基本信息,应用系统根据项目基本信息自动推荐类似项目申报书、商业计划书、行业研究分析、政府政策相关文件等情报材料供项目科研工作开展。
2.可应用于校园的知识管理系统,系统收集、处理、组织的知识,高效检索需求的文本。
3.可应用于企业信息管理,整合、获取、组织企业知识的系统与管理,以便为企业的决策提供支持。
4、还能够应用于科技情报搜索,搜索的条件是关键字搜索、情报文章时间搜索、发布站点搜索及图片搜索等。
5、还能够应用于科技情报大数据分析中心图的呈现。科技情报大数据分析系统中里面的内容包括总情报数量、情报类型统计分析、20大关键字倒序、情报发生地区统计等。
相比现有技术,为了解决原有打分算法位置不相关的问题,本发明在生产索引的时候,增加每个关键字所在的位置信息。然后查询的时候计算相关度时,乘以位置相关的权重。位置越接近的两组关键词得分越高,这样查询出来的结果符合人们的预期。
以下对本发明的打分算法进行详细阐述:
如图3所示,图3是新的排序算法打分公式示意图,其中:
横坐标Dn:关键字第一个词的位置减去最后一个词的位置;
纵坐标N:关键字组合在文档中的数量,比如“北京XXX中国XXXXX北京中国XX北京X中国”,“北京中国”这个关键字组合出现的次数为3三次。
原有的打分公式为:
改为:
score(q,d)=distance(q,d)×queryNorm(q)×
Σtinq(t∫(tind)×idf(x)2×t.getBost()×norm(t,d)
N(q,d):待查询关键字组合在文档中出现的次数(不考虑间距,只考虑出现的次序和待查询关键词次序相同就算为出现一次)。
∑(qfirst-qlast):待查询关键词在文档中任意一组的位置间距求和;
在传统SVM分类算法中,提取文本特征时,特征词的跟位置也是不相关的,识别出来的特征有时并不准确,比如文本中有“笔记本”,“电脑”这两个关键词,不考虑位置时,有可能会把这篇文文本化为“文具”类,而如果考虑位置时,那这篇文档应该是属于电气类。
所以本发明加入位置信息后,在查询的时候计算相关度时,乘以位置相关的权重。位置越接近的两组关键词得分越高,这样查询出来的结果符合人们的预期。
改进的关键词特征提取算法如图4所示,其中,图4所示分类算法得到的值是关键字组合在字典中的位置矢量与关键字组合在文档中的位置矢量之和。
改进的关键词特征提取算法如下:
D(q):为摸个关键字组合的特征向量。
P(q,d):待查询关键字q组合在文档d中出现的次数(不考虑间距,只考虑出现的次序和待查询关键词次序相同就算为出现一次)。
∑(qfirst-qlast):待查询关键字在文档中任意一组的位置间距求和;
qfirdt:每组关键字中第一个词的位置;
qlast:每组关键字中最后一个词的位置;
P(q):带查询关键字在字典中的位置。
由于加入了位置相关的函数,查询多个关键词时,比如查询“中国,北京”,文本中有“中国北京”连在一起的关键词的文档打分更高,排序更靠前。算法比较结果如下表所示:
目前常用全文搜索引擎是Lucene,其用于文档排序的打分算法如下:
其中:
t:Term,这里的Term是指包含域信息的Term,也即title:hello和content:hello是不同的Term。
coord(q,d):一次搜索可能包含多个搜索词,而一篇文档中也可能包含多个搜索词,此项表示,当一篇文档中包含的搜索词越多,则此文档则打分越高。
queryNorm(q):计算每个查询条目的方差和,此值并不影响排序,而仅仅使得不同的query之间的分数可以比较。其公式如下:
tf(tind):Term t在文档d中出现的词频。
idf(t):Term t在几篇文档中出现过。
norm(t,d):标准化因子,它包括三个参数:
Document boost:此值越大,说明此文档越重要。
Field boost:此域越大,说明此域越重要。
lengthNorm(field)=(1.0/Math.sqrt(numTerms)):一个域中包含的Term总数越多,也即文档越长,此值越小,文档越短,此值越大。
各类Boost值
t.getBoost():查询语句中每个词的权重,可以在查询中设定某个词更加重要,common^4hello
d.getBoost():文档权重,在索引阶段写入nrm文件,表明某些文档比其他文档更重要。
f.getBoost():域的权重,在索引阶段写入nrm文件,表明某些域比其他的域更重要。
位置相关的打分公式
N(q,d):待查询关键字组合在文档中出现的次数(不考虑间距,只考虑出现的次序和待查询关键词次序相同就算为出现一次)。
∑(qfirst-qlast):待查询关键词在文档中任意一组的位置间距求和;
qfirst:每组关键字中第一个词的位置;
qlast:每组关键字中最后一个词的位置;
位置相关的关键词特征提取算法:
D(q):为某个关键字组合的特征向量。
P(q,d):待查询关键字q组合在文档d中出现的次数(不考虑间距,只考虑出现的次序和待查询关键词次序相同就算为出现一次)。
∑(qfirst-qlast):待查询关键字在文档中任意一组的位置间距求和;这里规定最小间距是1,防止除0。
qfirst:每组关键字中第一个词的位置;
qlast:每组关键字中最后一个词的位置;
P(q):带查询关键字在字典d中的位置;公式如下:
∑q(d):待查询关键字组合q在字典d中的位置求和;
qa:待查询关键字第一个词在字典中的位置;
qb:待查询关键字第一个词在字典中的位置。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (7)
1.一种基于情报数据的文本检索分类方法,其特征在于,包括以下步骤:
对OCR识别出来的文档进行采集,得到非结构化文档,并将所述文档存入数据库;
通过人工或机器自动生成关键词字典,并对所述关键词字典进行归类;
使用已分类的关键词字典对所述文档进行处理,基于关键词生成倒排索引,其中,在生成倒排索引时,增加每个所述关键词所在的位置信息;
根据所述关键词所在的分类对所述文档进行分类标注,并将得到的分类结果存入数据库;
对所述分类结果通过机器学习和/或人工标注方式生成新的词汇,并对新的词汇重新进行分类,将所述新的词汇存入所述关键词字典。
2.根据权利要求1所述的基于情报数据的文本检索分类方法,其特征在于,所述方法还包括:
在接收到用户基于待查询关键词的查询请求时,基于所述关键词字典计算所述待查询关键词的相关度,将所述待查询关键词的相关度乘以位置相关的权重,所述位置相关的权重基于所述待查询关键词所在的位置信息获得;
根据乘以位置相关的权重后的待查询关键词的相关度,并基于预设的打分公式对数据库中的文档进行全文检索排序,并将检索结果归类到所述待查询关键词所在的类别;
将检索结果呈现给用户。
3.根据权利要求2所述的基于情报数据的文本检索分类方法,其特征在于,所述打分公式为:
score(q,d)=distance(q,d)×queryNorm(q)×∑tinq(t∫(tind)×idf(t)2×t.getBost()×norm(t,d);
其中,distance(q,d)为打分参数;
queryNorm(q)为计算每个查询条目的方差和;
t∫(tind)为Term t在文档d中出现的词频;
idf(t)为Term t在几篇文档中出现过;
t.getBost()为查询语句中每个词的权重;
norm(t,d)的含义为标准化因子。
6.一种基于情报数据的文本检索分类系统,其特征在于,包括:
采集模块,用于对OCR识别出来的文档进行采集,得到非结构化文档,并将所述文档存入数据库;
归类模块,用于通过人工或机器自动生成关键词字典,并对所述关键词字典进行归类;
处理模块,用于使用已分类的关键词字典对所述文档进行处理,基于关键词生成倒排索引,其中,在生成倒排索引时,增加每个所述关键词所在的位置信息;
分类模块,用于根据所述关键词所在的分类对所述文档进行分类标注,并将得到的分类结果存入数据库,以及对所述分类结果通过机器学习和/或人工标注方式生成新的词汇,并对新的词汇重新进行分类,将所述新的词汇存入所述关键词字典。
7.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序,所述计算机程序被所述处理器运行时实现如权利要求1-5中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010048074.8A CN111259145B (zh) | 2020-01-16 | 2020-01-16 | 基于情报数据的文本检索分类方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010048074.8A CN111259145B (zh) | 2020-01-16 | 2020-01-16 | 基于情报数据的文本检索分类方法、系统及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111259145A true CN111259145A (zh) | 2020-06-09 |
CN111259145B CN111259145B (zh) | 2023-05-12 |
Family
ID=70947404
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010048074.8A Active CN111259145B (zh) | 2020-01-16 | 2020-01-16 | 基于情报数据的文本检索分类方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111259145B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111680130A (zh) * | 2020-06-16 | 2020-09-18 | 深圳前海微众银行股份有限公司 | 文本检索方法、装置、设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040249794A1 (en) * | 2003-06-03 | 2004-12-09 | Nelson Dorothy Ann | Method to identify a suggested location for storing a data entry in a database |
JP2009086774A (ja) * | 2007-09-27 | 2009-04-23 | Nomura Research Institute Ltd | 検索サービス装置 |
CN102955812A (zh) * | 2011-08-29 | 2013-03-06 | 阿里巴巴集团控股有限公司 | 一种构建索引库的方法、装置及查询方法和装置 |
CN103020213A (zh) * | 2012-12-07 | 2013-04-03 | 福建亿榕信息技术有限公司 | 具有明显类别划分的非结构化电子文档的检索方法和系统 |
CN103823857A (zh) * | 2014-02-21 | 2014-05-28 | 浙江大学 | 基于自然语言处理的空间信息检索方法 |
CN104778276A (zh) * | 2015-04-29 | 2015-07-15 | 北京航空航天大学 | 一种基于改进tf-idf的多索引合并排序算法 |
CN105045852A (zh) * | 2015-07-06 | 2015-11-11 | 华东师范大学 | 一种教学资源的全文搜索引擎系统 |
CN105787104A (zh) * | 2016-03-21 | 2016-07-20 | 百度在线网络技术(北京)有限公司 | 用户属性信息的获取方法和装置 |
CN106997384A (zh) * | 2017-03-24 | 2017-08-01 | 福州大学 | 一种排序可验证的语义模糊可搜索加密方法 |
CN110532352A (zh) * | 2019-08-20 | 2019-12-03 | 腾讯科技(深圳)有限公司 | 文本查重方法及装置、计算机可读存储介质、电子设备 |
-
2020
- 2020-01-16 CN CN202010048074.8A patent/CN111259145B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040249794A1 (en) * | 2003-06-03 | 2004-12-09 | Nelson Dorothy Ann | Method to identify a suggested location for storing a data entry in a database |
JP2009086774A (ja) * | 2007-09-27 | 2009-04-23 | Nomura Research Institute Ltd | 検索サービス装置 |
CN102955812A (zh) * | 2011-08-29 | 2013-03-06 | 阿里巴巴集团控股有限公司 | 一种构建索引库的方法、装置及查询方法和装置 |
CN103020213A (zh) * | 2012-12-07 | 2013-04-03 | 福建亿榕信息技术有限公司 | 具有明显类别划分的非结构化电子文档的检索方法和系统 |
CN103823857A (zh) * | 2014-02-21 | 2014-05-28 | 浙江大学 | 基于自然语言处理的空间信息检索方法 |
CN104778276A (zh) * | 2015-04-29 | 2015-07-15 | 北京航空航天大学 | 一种基于改进tf-idf的多索引合并排序算法 |
CN105045852A (zh) * | 2015-07-06 | 2015-11-11 | 华东师范大学 | 一种教学资源的全文搜索引擎系统 |
CN105787104A (zh) * | 2016-03-21 | 2016-07-20 | 百度在线网络技术(北京)有限公司 | 用户属性信息的获取方法和装置 |
CN106997384A (zh) * | 2017-03-24 | 2017-08-01 | 福州大学 | 一种排序可验证的语义模糊可搜索加密方法 |
CN110532352A (zh) * | 2019-08-20 | 2019-12-03 | 腾讯科技(深圳)有限公司 | 文本查重方法及装置、计算机可读存储介质、电子设备 |
Non-Patent Citations (1)
Title |
---|
封俊: ""基于倒排索引的高校图书检索系统的研究与实现"" * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111680130A (zh) * | 2020-06-16 | 2020-09-18 | 深圳前海微众银行股份有限公司 | 文本检索方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111259145B (zh) | 2023-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9864808B2 (en) | Knowledge-based entity detection and disambiguation | |
US6286000B1 (en) | Light weight document matcher | |
Balog et al. | Formal models for expert finding in enterprise corpora | |
CN103678576B (zh) | 基于动态语义分析的全文检索系统 | |
US7272558B1 (en) | Speech recognition training method for audio and video file indexing on a search engine | |
US6519586B2 (en) | Method and apparatus for automatic construction of faceted terminological feedback for document retrieval | |
CN111611356B (zh) | 信息查找方法、装置、电子设备及可读存储介质 | |
Manjari et al. | Extractive Text Summarization from Web pages using Selenium and TF-IDF algorithm | |
US20050060290A1 (en) | Automatic query routing and rank configuration for search queries in an information retrieval system | |
US20040249808A1 (en) | Query expansion using query logs | |
US8510312B1 (en) | Automatic metadata identification | |
US20080288483A1 (en) | Efficient retrieval algorithm by query term discrimination | |
Lin et al. | ACIRD: intelligent Internet document organization and retrieval | |
CN112307182B (zh) | 一种基于问答系统的伪相关反馈的扩展查询方法 | |
CN115563313A (zh) | 基于知识图谱的文献书籍语义检索系统 | |
CN114265926A (zh) | 一种基于自然语言的素材推荐方法、系统、设备及介质 | |
Wu et al. | Searching online book documents and analyzing book citations | |
Malhotra et al. | An effective approach for news article summarization | |
JP2001184358A (ja) | カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体 | |
RU2473119C1 (ru) | Способ и система семантического поиска электронных документов | |
CN111259145B (zh) | 基于情报数据的文本检索分类方法、系统及存储介质 | |
Aquino et al. | Analysis on the use of Latent Semantic Indexing (LSI) for document classification and retrieval system of PNP files | |
Omri | Effects of terms recognition mistakes on requests processing for interactive information retrieval | |
Choi | Making Sense of Search Results by Automatic Web-page Classifications. | |
US20160314125A1 (en) | Predictive Coding System and Method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |