CN110008407B - 一种信息检索方法及装置 - Google Patents

一种信息检索方法及装置 Download PDF

Info

Publication number
CN110008407B
CN110008407B CN201910278425.1A CN201910278425A CN110008407B CN 110008407 B CN110008407 B CN 110008407B CN 201910278425 A CN201910278425 A CN 201910278425A CN 110008407 B CN110008407 B CN 110008407B
Authority
CN
China
Prior art keywords
search
information
index
index information
idf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910278425.1A
Other languages
English (en)
Other versions
CN110008407A (zh
Inventor
张永欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN201910278425.1A priority Critical patent/CN110008407B/zh
Publication of CN110008407A publication Critical patent/CN110008407A/zh
Application granted granted Critical
Publication of CN110008407B publication Critical patent/CN110008407B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种信息检索方法及装置,所述方法包括:在接收到检索请求后,生成检索词库;其中,所述检索词库中包含将所述检索请求中包含的原始检索信息进行分词后的一个或多个检索词;从信息库中查询符合所述检索词的索引信息,生成索引库;其中,所述索引库中包含多条索引信息;计算索引库中各索引信息相比检索词的词频‑逆文档频率TF‑IDF相关度;根据所述TF‑IDF相关度确定索引库中符合预设数量的索引信息,将所确定的所述索引信息对应所述信息库中的信息作为与所述检索请求对应的检索结果。本申请利用改进的TF‑IDF算法来计算索引库中各索引信息相比检索词的TF‑IDF相关度,从而提高了信息检索的效率和准确度。

Description

一种信息检索方法及装置
技术领域
本申请涉及信息检索领域,尤其涉及一种信息检索方法及装置。
背景技术
随着信息技术的发展,互联网信息每天都在呈比例增长,如何在庞大的信息海洋中寻找到自己想要得到的信息,是目前信息技术都在发展的方向。
对于电子商务、搜索引擎等类型的网站来说,信息搜索引擎系统能够根据用户输入的检索词,判断用户的查询意图,并在特定位置上向用户展现需要投放的相关信息,不同的检索方法会对应不同的检索结果,准确预估信息在给定的检索词上的点击率,对用户体验、信息投放方的收益、以及网站的盈利都有重要影响。
如何提高信息检索的效率和准确度,更快更准确地返回用户想要的检索结果,从而提高用户的体验度,是目前亟待解决的问题。
发明内容
本申请的主要目的在于提出一种信息检索方法,提高了信息检索的效率和准确度,更快更准确地返回用户想要的检索结果,从而提高了用户的体验度。
为实现上述目的,本申请实施例提供了一种信息检索方法,包括:
在接收到检索请求后,生成检索词库;其中,所述检索词库中包含将所述检索请求中包含的原始检索信息进行分词后的一个或多个检索词;
从信息库中查询符合所述检索词的索引信息,生成索引库;其中,所述索引库中包含多条索引信息;
计算索引库中各索引信息相比检索词的词频-逆文档频率TF-IDF相关度;
根据所述TF-IDF相关度确定索引库中符合预设数量的索引信息,将所确定的所述索引信息对应所述信息库中的信息作为与所述检索请求对应的检索结果。
可选地,所述计算索引库中各索引信息相比检索词的词频-逆文档频率TF-IDF相关度,包括:
根据所述索引信息中出现的检索词的词频与逆文档频率之和,以及所述检索词在文档中的位置计算所述索引信息相比检索词的TF-IDF相关度。
可选地,利用如下公式计算所述索引信息相比检索词的TF-IDF相关度:
Figure GDA0002903447200000021
其中,IDFi表示所述索引信息中所包含的第i个检索词的逆文档频率,TFi表示所述索引信息中所包含的第i个检索词的词频,TN表示所述索引信息中所包含的检索词的总数,disti表示所述索引信息中所包含的第i个检索词与第i-1个检索词之间在一文档中的距离,当所述第i个检索词在所述文档中的位置di大于所述第i-1个检索词在所述文档中的位置di-1时,disti=di-di-1,当所述第i个检索词在所述文档中的位置di小于所述第i-1个检索词在所述文档中的位置di-1时,disti=2(di-1-di)。
可选地,其中,对于所述索引信息中所包含的堆砌3次以上的检索词,对应所述检索词的词频与逆文档频率之和采取降权一半处理。
可选地,所述根据所述TF-IDF相关度确定索引库中符合预设数量的索引信息,包括:
利用最大堆排序法将所述索引库中各索引信息相比检索词的TF-IDF相关度进行排序,按数值从大到小的顺序选取前面符合预设数量的TF-IDF相关度所对应的索引信息。
本申请实施例还提供了一种信息检索装置,包括:
检索词库生成模块,设置为在接收到检索请求后,生成检索词库;其中,所述检索词库中包含将所述检索请求中包含的原始检索信息进行分词后的一个或多个检索词;
索引库生成模块,设置为从信息库中查询符合所述检索词的索引信息,生成索引库;其中,所述索引库中包含多条索引信息;
TF-IDF相关度计算模块,设置为计算索引库中各索引信息相比检索词的词频-逆文档频率TF-IDF相关度;
检索结果确定模块,设置为根据所述TF-IDF相关度确定索引库中符合预设数量的索引信息,将所确定的所述索引信息对应所述信息库中的信息作为与所述检索请求对应的检索结果。
可选地,所述TF-IDF相关度计算模块具体设置为:
根据所述索引信息中出现的检索词的词频与逆文档频率之和,以及所述检索词在文档中的位置计算所述索引信息相比检索词的TF-IDF相关度。
可选地,所述TF-IDF相关度计算模块利用如下公式计算所述索引信息相比检索词的TF-IDF相关度:
Figure GDA0002903447200000031
其中,IDFi表示所述索引信息中所包含的第i个检索词的逆文档频率,TFi表示所述索引信息中所包含的第i个检索词的词频,TN表示所述索引信息中所包含的检索词的总数,disti表示所述索引信息中所包含的第i个检索词与第i-1个检索词之间在一文档中的距离,当所述第i个检索词在所述文档中的位置di大于所述第i-1个检索词在所述文档中的位置di-1时,disti=di-di-1,当所述第i个检索词在所述文档中的位置di小于所述第i-1个检索词在所述文档中的位置di-1时,disti=2(di-1-di)。
可选地,其中,对于所述索引信息中所包含的堆砌3次以上的检索词,对应所述检索词的词频与逆文档频率之和采取降权一半处理。
可选地,所述检索结果确定模块具体设置为:
利用最大堆排序法将所述索引库中各索引信息相比检索词的TF-IDF相关度进行排序,按数值从大到小的顺序选取前面符合预设数量的TF-IDF相关度所对应的索引信息。
本申请提出的技术方案包括:在接收到检索请求后,生成检索词库;其中,所述检索词库中包含将所述检索请求中包含的原始检索信息进行分词后的一个或多个检索词;从信息库中查询符合所述检索词的索引信息,生成索引库;其中,所述索引库中包含多条索引信息;计算索引库中各索引信息相比检索词的词频-逆文档频率TF-IDF相关度;根据所述TF-IDF相关度确定索引库中符合预设数量的索引信息,将所确定的所述索引信息对应所述信息库中的信息作为与所述检索请求对应的检索结果。
本申请利用改进的TF-IDF算法来计算索引库中各索引信息相比检索词的TF-IDF相关度,并根据所计算的TF-IDF相关度获取检索结果,以此方式获取的检索结果与检索词更加匹配,从而提高了信息检索的效率和准确度,更快更准确地返回用户想要的检索结果,从而提高了用户的体验度。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1所示为本申请实施例1的信息检索方法流程图;
图2所示为本申请实施例2的信息检索装置流程图;
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
图1所示为本申请实施例1的信息检索方法流程图,包括以下步骤:
步骤101:在接收到检索请求后,生成检索词库;其中,所述检索词库中包含将所述检索请求中包含的原始检索信息进行分词后的一个或多个检索词;
其中,检索请求中包含用户所输入的原始检索信息,在接收到该检索请求后,首先提取出用户所输入的原始检索信息,然后对其进行分词操作,在分词时可以调用现有的SCWS(“Simple Chinese Words Segmentation”的缩写,即:简易中文分词系统)所提供的接口来实现,SCWS是一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词。其中,SCWS采用Tire树+路径最大概率法分词算法。Tire树负责文本语料库的组织,路径最大概率法分词是分词的策略。
根据分词结果生成检索词库,该检索词库中的检索词即为对原始检索信息进行分词后所产生的各个文本,如:用户所输入的原始检索信息为“绿色的毛衣”,则进行分词后所生成的检索词库中包含了两个检索词,分别为:“绿色的”和“毛衣”。
步骤102:从信息库中查询符合所述检索词的索引信息,生成索引库;其中,所述索引库中包含多条索引信息;
其中,信息库指的是用户输入原始检索信息所在的系统提供的数据库,比如该系统可以是商品投放系统(如淘宝、京东等),还可以是搜索引擎网站(如:百度等)。
索引库中的索引信息即为信息库中包含部分或全部检索词的信息的索引,该索引库采用倒排索引建立方式。
倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。
倒排索引也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。
倒排列表用来记录有哪些文档包含了某个单词。一般在文档集合里会有很多文档包含某个单词,每个文档会记录文档编号(DocID),单词在这个文档中出现的次数(TF)及单词在文档中哪些位置出现过等信息,这样与一个文档相关的信息被称做倒排索引项(Posting),包含这个单词的一系列倒排索引项形成了列表结构,这就是某个单词对应的倒排列表。
在从信息库中查询符合所述检索词的索引信息时,为了缩短查询时间,提高检索效率,可以把检索表打碎为每10W行一个的小表,每次直接读取对应的表。通过如此优化,最终将query的平均响应时间由1.8秒降到0.3秒,达到了优化要求。
步骤103:计算索引库中各索引信息相比检索词的词频-逆文档频率TF-IDF相关度;
其中,可以根据所述索引信息中出现的检索词的词频与逆文档频率之和,以及所述检索词在文档中的位置来计算所述索引信息相比检索词的TF-IDF相关度,具体计算方式可以利用如下公式来进行:
Figure GDA0002903447200000061
其中,IDFi表示所述索引信息中所包含的第i个检索词的逆文档频率,TFi表示所述索引信息中所包含的第i个检索词的词频,TN表示所述索引信息中所包含的检索词的总数,disti表示所述索引信息中所包含的第i个检索词与第i-1个检索词之间在一文档中的距离,当所述第i个检索词在所述文档中的位置di大于所述第i-1个检索词在所述文档中的位置di-1时,disti=di-di-1,当所述第i个检索词在所述文档中的位置di小于所述第i-1个检索词在所述文档中的位置di-1时,disti=2(di-1-di)。
其中,TFi为所述索引信息中所包含的第i个检索词在一文档中出现的次数除以其在所有文档中出现的总次数;IDFi为总文档数目除以包含该检索词的文档的数目与1相加的和,再将得到的商取对数得到的结果值。
其中,对于所述索引信息中所包含的堆砌3次以上的检索词,对应所述检索词的词频与逆文档频率之和采取降权一半处理。
步骤104:根据所述TF-IDF相关度确定索引库中符合预设数量的索引信息,将所确定的所述索引信息对应所述信息库中的信息作为与所述检索请求对应的检索结果。
在通过上述步骤103计算出各索引信息的Weight后,利用最大堆排序法将所有的Weight值进行排序,按数值从大到小的顺序选取前面符合预设数量的Weight所对应的索引信息,然后将所确定的索引信息对应所述信息库中的信息作为与检索请求对应的检索结果。其中,预设数量可以根据系统设计的需要灵活设定。对于检索结果,可以以系统所定义的方式向用户进行展示。
这里需要说明的是,本申请利用改进的TF-IDF算法来计算索引库中各索引信息相比检索词的TF-IDF相关度,并根据所计算的TF-IDF相关度获取检索结果,以此方式获取的检索结果与检索词更加匹配,从而提高了信息检索的效率和准确度,更快更准确地返回用户想要的检索结果,从而提高了用户的体验度。
图2为本申请实施例2的信息检索装置结构图,如图2所示,该装置包括:
检索词库生成模块,设置为在接收到检索请求后,生成检索词库;其中,所述检索词库中包含将所述检索请求中包含的原始检索信息进行分词后的一个或多个检索词;
索引库生成模块,设置为从信息库中查询符合所述检索词的索引信息,生成索引库;其中,所述索引库中包含多条索引信息;
TF-IDF相关度计算模块,设置为计算索引库中各索引信息相比检索词的词频-逆文档频率TF-IDF相关度;
检索结果确定模块,设置为根据所述TF-IDF相关度确定索引库中符合预设数量的索引信息,将所确定的所述索引信息对应所述信息库中的信息作为与所述检索请求对应的检索结果。
进一步地,所述TF-IDF相关度计算模块具体设置为:
根据所述索引信息中出现的检索词的词频与逆文档频率之和,以及所述检索词在文档中的位置计算所述索引信息相比检索词的TF-IDF相关度。
进一步地,所述TF-IDF相关度计算模块利用如下公式计算所述索引信息相比检索词的TF-IDF相关度:
Figure GDA0002903447200000071
其中,IDFi表示所述索引信息中所包含的第i个检索词的逆文档频率,TFi表示所述索引信息中所包含的第i个检索词的词频,TN表示所述索引信息中所包含的检索词的总数,disti表示所述索引信息中所包含的第i个检索词与第i-1个检索词之间在一文档中的距离,当所述第i个检索词在所述文档中的位置di大于所述第i-1个检索词在所述文档中的位置di-1时,disti=di-di-1,当所述第i个检索词在所述文档中的位置di小于所述第i-1个检索词在所述文档中的位置di-1时,disti=2(di-1-di)。
进一步地,其中,对于所述索引信息中所包含的堆砌3次以上的检索词,对应所述检索词的词频与逆文档频率之和采取降权一半处理。
进一步地,所述检索结果确定模块具体设置为:
利用最大堆排序法将所述索引库中各索引信息相比检索词的TF-IDF相关度进行排序,按数值从大到小的顺序选取前面符合预设数量的TF-IDF相关度所对应的索引信息。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (6)

1.一种信息检索方法,其特征在于,包括:
在接收到检索请求后,生成检索词库;其中,所述检索词库中包含将所述检索请求中包含的原始检索信息进行分词后的一个或多个检索词;
从信息库中查询符合所述检索词的索引信息,生成索引库;其中,所述索引库中包含多条索引信息;
计算索引库中各索引信息相比检索词的词频-逆文档频率TF-IDF相关度;
根据所述TF-IDF相关度确定索引库中符合预设数量的索引信息,将所确定的所述索引信息对应所述信息库中的信息作为与所述检索请求对应的检索结果,
所述计算索引库中各索引信息相比检索词的词频-逆文档频率TF-IDF相关度,包括:
根据所述索引信息中出现的检索词的词频与逆文档频率之和,以及所述检索词在文档中的位置计算所述索引信息相比检索词的TF-IDF相关度,
利用如下公式计算所述索引信息相比检索词的TF-IDF相关度:
Figure FDA0002903447190000011
其中,IDFi表示所述索引信息中所包含的第i个检索词的逆文档频率,TFi表示所述索引信息中所包含的第i个检索词的词频,TN表示所述索引信息中所包含的检索词的总数,disti表示所述索引信息中所包含的第i个检索词与第i-1个检索词之间在一文档中的距离,当所述第i个检索词在所述文档中的位置di大于所述第i-1个检索词在所述文档中的位置di-1时,disti=di-di-1,当所述第i个检索词在所述文档中的位置di小于所述第i-1个检索词在所述文档中的位置di-1时,disti=2(di-1-di)。
2.根据权利要求1所述的方法,其特征在于,其中,对于所述索引信息中所包含的堆砌3次以上的检索词,对应所述检索词的词频与逆文档频率之和采取降权一半处理。
3.根据权利要求1~2任一项所述的方法,其特征在于,所述根据所述TF-IDF相关度确定索引库中符合预设数量的索引信息,包括:
利用最大堆排序法将所述索引库中各索引信息相比检索词的TF-IDF相关度进行排序,按数值从大到小的顺序选取前面符合预设数量的TF-IDF相关度所对应的索引信息。
4.一种信息检索装置,其特征在于,包括:
检索词库生成模块,设置为在接收到检索请求后,生成检索词库;其中,所述检索词库中包含将所述检索请求中包含的原始检索信息进行分词后的一个或多个检索词;
索引库生成模块,设置为从信息库中查询符合所述检索词的索引信息,生成索引库;其中,所述索引库中包含多条索引信息;
TF-IDF相关度计算模块,设置为计算索引库中各索引信息相比检索词的词频-逆文档频率TF-IDF相关度;
检索结果确定模块,设置为根据所述TF-IDF相关度确定索引库中符合预设数量的索引信息,将所确定的所述索引信息对应所述信息库中的信息作为与所述检索请求对应的检索结果,
所述TF-IDF相关度计算模块具体设置为:
根据所述索引信息中出现的检索词的词频与逆文档频率之和,以及所述检索词在文档中的位置计算所述索引信息相比检索词的TF-IDF相关度,
所述TF-IDF相关度计算模块利用如下公式计算所述索引信息相比检索词的TF-IDF相关度:
Figure FDA0002903447190000021
其中,IDFi表示所述索引信息中所包含的第i个检索词的逆文档频率,TFi表示所述索引信息中所包含的第i个检索词的词频,TN表示所述索引信息中所包含的检索词的总数,disti表示所述索引信息中所包含的第i个检索词与第i-1个检索词之间在一文档中的距离,当所述第i个检索词在所述文档中的位置di大于所述第i-1个检索词在所述文档中的位置di-1时,disti=di-di-1,当所述第i个检索词在所述文档中的位置di小于所述第i-1个检索词在所述文档中的位置di-1时,disti=2(di-1-di)。
5.根据权利要求4所述的装置,其特征在于,其中,对于所述索引信息中所包含的堆砌3次以上的检索词,对应所述检索词的词频与逆文档频率之和采取降权一半处理。
6.根据权利要求4~5任一项所述的装置,其特征在于,所述检索结果确定模块具体设置为:
利用最大堆排序法将所述索引库中各索引信息相比检索词的TF-IDF相关度进行排序,按数值从大到小的顺序选取前面符合预设数量的TF-IDF相关度所对应的索引信息。
CN201910278425.1A 2019-04-09 2019-04-09 一种信息检索方法及装置 Active CN110008407B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910278425.1A CN110008407B (zh) 2019-04-09 2019-04-09 一种信息检索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910278425.1A CN110008407B (zh) 2019-04-09 2019-04-09 一种信息检索方法及装置

Publications (2)

Publication Number Publication Date
CN110008407A CN110008407A (zh) 2019-07-12
CN110008407B true CN110008407B (zh) 2021-05-04

Family

ID=67170378

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910278425.1A Active CN110008407B (zh) 2019-04-09 2019-04-09 一种信息检索方法及装置

Country Status (1)

Country Link
CN (1) CN110008407B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114996550B (zh) * 2021-05-24 2024-03-19 中移互联网有限公司 信息检索方法及装置
CN116933766B (zh) * 2023-06-02 2024-08-16 盐城工学院 一种基于三重词频方案的Ad-hoc信息检索模型

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101609460A (zh) * 2009-07-22 2009-12-23 中国科学院地理科学与资源研究所 一种支持异构地学数据资源的检索方法及检索系统
CN101788981A (zh) * 2009-01-24 2010-07-28 华为技术有限公司 一种深层网移动搜索方法、服务器及系统
CN103186612A (zh) * 2011-12-30 2013-07-03 中国移动通信集团公司 一种词汇分类的方法、系统和实现方法
US9165058B2 (en) * 2012-07-11 2015-10-20 Electronics And Telecommunications Research Institute Apparatus and method for searching for personalized content based on user's comment
CN108491462A (zh) * 2018-03-05 2018-09-04 昆明理工大学 一种基于word2vec的语义查询扩展方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101788981A (zh) * 2009-01-24 2010-07-28 华为技术有限公司 一种深层网移动搜索方法、服务器及系统
CN101609460A (zh) * 2009-07-22 2009-12-23 中国科学院地理科学与资源研究所 一种支持异构地学数据资源的检索方法及检索系统
CN103186612A (zh) * 2011-12-30 2013-07-03 中国移动通信集团公司 一种词汇分类的方法、系统和实现方法
US9165058B2 (en) * 2012-07-11 2015-10-20 Electronics And Telecommunications Research Institute Apparatus and method for searching for personalized content based on user's comment
CN108491462A (zh) * 2018-03-05 2018-09-04 昆明理工大学 一种基于word2vec的语义查询扩展方法及装置

Also Published As

Publication number Publication date
CN110008407A (zh) 2019-07-12

Similar Documents

Publication Publication Date Title
CN109885773B (zh) 一种文章个性化推荐方法、系统、介质及设备
US20170161375A1 (en) Clustering documents based on textual content
US8782061B2 (en) Scalable lookup-driven entity extraction from indexed document collections
CN111104794A (zh) 一种基于主题词的文本相似度匹配方法
US8380697B2 (en) Search and retrieval methods and systems of short messages utilizing messaging context and keyword frequency
CN108520002A (zh) 数据处理方法、服务器及计算机存储介质
CN110866091B (zh) 一种数据检索方法及装置
US9619571B2 (en) Method for searching related entities through entity co-occurrence
CN107085583B (zh) 一种基于内容的电子文档管理方法及装置
CN106033416A (zh) 一种字符串处理方法及装置
US9483740B1 (en) Automated data classification
EP2631815A1 (en) Method and device for ordering search results, method and device for providing information
CN111428494A (zh) 专有名词的智能纠错方法、装置、设备及存储介质
CN112115227A (zh) 数据的查询方法、装置、电子设备及存储介质
EP2862104A1 (en) Search method and apparatus
CN112035599A (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
CN102567421A (zh) 文档检索方法和装置
CN114911917A (zh) 资产元信息搜索方法、装置、计算机设备及可读存储介质
CN115563313A (zh) 基于知识图谱的文献书籍语义检索系统
CN110008407B (zh) 一种信息检索方法及装置
CN110674087A (zh) 文件查询方法、装置及计算机可读存储介质
CN115145871A (zh) 文件查询方法、装置和电子设备
CN114330329A (zh) 一种业务内容搜索方法、装置、电子设备及存储介质
US9516089B1 (en) Identifying and processing a number of features identified in a document to determine a type of the document
EP3644195A1 (en) System for storing and querying document collections

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant