CN102156711A - 一种基于云存储的电力全文检索方法及系统 - Google Patents

一种基于云存储的电力全文检索方法及系统 Download PDF

Info

Publication number
CN102156711A
CN102156711A CN 201110054382 CN201110054382A CN102156711A CN 102156711 A CN102156711 A CN 102156711A CN 201110054382 CN201110054382 CN 201110054382 CN 201110054382 A CN201110054382 A CN 201110054382A CN 102156711 A CN102156711 A CN 102156711A
Authority
CN
China
Prior art keywords
document
proper vector
query information
keyword
obtains
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201110054382
Other languages
English (en)
Other versions
CN102156711B (zh
Inventor
曹汝滨
吴凯峰
张�荣
孙雪芬
徐杰锋
肖政
方东煦
李云
吴铧明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING YOYO TIANYU SYSTEM TECHNOLOGY CO LTD
SKYCLOUD TECHNOLOGY (CHINA) Inc
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
Original Assignee
BEIJING YOYO TIANYU SYSTEM TECHNOLOGY CO LTD
SKYCLOUD TECHNOLOGY (CHINA) Inc
State Grid Information and Telecommunication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING YOYO TIANYU SYSTEM TECHNOLOGY CO LTD, SKYCLOUD TECHNOLOGY (CHINA) Inc, State Grid Information and Telecommunication Co Ltd filed Critical BEIJING YOYO TIANYU SYSTEM TECHNOLOGY CO LTD
Priority to CN 201110054382 priority Critical patent/CN102156711B/zh
Publication of CN102156711A publication Critical patent/CN102156711A/zh
Application granted granted Critical
Publication of CN102156711B publication Critical patent/CN102156711B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种基于云存储的电力全文检索方法,包括:获取查询信息,确定查询信息的特征向量;根据查询信息的特征向量获取特征向量相似度大于预设相似度阈值的文档,将获取到的文档存储于临时数据库中,所述临时数据库设置在云存储系统中;根据预设的电力主题词表的分词词库对临时数据库中各个文档进行分词处理,将得到的分词结果按照倒排结构进行存储,得到索引数据库,所述索引数据库也设置在云存储系统中;获取用户的搜索信息,从索引数据库中查找得到与所述搜索信息关联性最大的预设数量个文档,将所述文档返回给用户所在的客户端。本发明还提供一种基于云存储的电力全文检索系统,能够实现对于电力关键词的全文检索,且提高了检索效率。

Description

一种基于云存储的电力全文检索方法及系统
技术领域
本发明涉及全文检索技术,尤其涉及一种基于云存储的电力全文检索方法及系统。
背景技术
全文检索技术是上世纪50年代末出现的一种信息检索技术,它是一种面向全文和提供全文的检索技术,这种检索技术不需对文献进行标引就可以实现检索。它可以将原文中任何有意义的字或词作为检索项目,并由其指向原文的有关页面或链接。全文检索技术是发现信息、分析和过滤信息、信息代理、信息安全控制等应用的主要技术基础。
在电力企业生产和管理工作中,工作人员经常面对海量的标准信息,而电力信息资源专业性强,电力专业术语有时又和日常用语代表意义不同,例如“EMS”在生活中是快递的意思,而在电力系统中表示“能量管理系统”的英语缩写。
因此,当前主流的全文检索系统并不能完全满足电力专业用户的需求,用户一般只希望输入很少量的信息就能检索到自己需要的电力相关信息,但当前的搜索引擎由于较低的查准率大都会返回大量的匹配信息让用户筛选,并不能针对用户的特定情况返回用户希望得到的准确的结果。
现有技术中还没有专门为电力专业用户提供的进行全文检索的方法和系统。
发明内容
有鉴于此,本发明要解决的技术问题是,提供一种基于云存储的电力全文检索方法及系统,能够实现对于电力关键词的全文检索,且提高了检索效率。
为此,本发明实施例采用如下技术方案:
一种基于云存储的电力全文检索方法,包括:
获取查询信息,确定查询信息的特征向量;
根据查询信息的特征向量获取特征向量相似度大于预设相似度阈值的文档,将获取到的文档存储于临时数据库中,所述临时数据库设置在云存储系统中;
根据预设的电力主题词表的分词词库对临时数据库中各个文档进行分词处理,将得到的分词结果按照倒排结构进行存储,得到索引数据库,所述索引数据库也设置在云存储系统中;
获取用户的搜索信息,从索引数据库中查找得到与所述搜索信息关联性最大的预设数量个文档,将所述文档返回给用户所在的客户端。
确定查询信息的特征向量包括:
确定查询信息中的关键词,并且,确定各个关键词的权重;
根据所述关键词以及关键词的权重确定查询信息的特征向量。
根据查询信息的特征向量获取特征向量相似度大于预设相似度阈值的文档包括:
确定各个文档的特征向量;
根据各个文档的特征向量以及查询信息的特征向量分别计算各个文档与查询信息之间的特征向量相似度;
获取特征向量相似度大于预设相似度阈值的文档。
在确定各个文档的特征向量时,关键词w在文档i中的权重通过以下公式进行计算:
weigh ( w , i ) = f wi lg ( N / n w ) Σ k = 1 w i ( f ki ) 2 ( lg ( N / n k ) ) 2
其中,fwi为关键词w在文档i中出现的频率;N为外部信息源中文档的数目;nw为外部信息源中包含词条w的文档的个数;Wi为文档i中所有关键词的个数。
还包括:
通过计算公式计算文档与查询信息之间的特征向量相似度;
其中,qi表示查询信息的特征向量q中第i个分量的关键词权重,di表示文档的特征向量d中第i个分量的关键词权重。
从索引数据库中查找得到与所述搜索信息关联性最大的预设数量个文档包括:
对所述搜索信息进行分词处理,并且,从分词得到的词项序列中删除预设的词项;确定删除后得到的词项序列中的关键词;
根据删除后得到的词项序列从索引数据库中查找得到各个词项对应的文档集合,确定所述各个词项对应的文档集合的交集;
将得到的所述交集中的文档按照与词项序列的关键词之间的关联度进行非升序排序,将位置靠前的预设数量个文档作为所述关联性最大的文档。
一种基于云存储的电力全文检索系统,包括:
第一确定单元,用于获取查询信息,确定查询信息的特征向量;
获取单元,用于根据查询信息的特征向量获取特征向量相似度大于预设相似度阈值的文档,将获取到的文档存储于临时数据库中;
分词单元,用于根据预设的电力主题词表的分词词库对临时数据库中各个文档进行分词处理,将得到的分词结果按照倒排结构进行存储,得到索引数据库;
搜索单元,用于获取用户的搜索信息,从索引数据库中查找得到与所述搜索信息关联性最大的预设数量个文档,将所述文档返回给用户所在的客户端;
云存储系统,用于存储临时数据库以及索引数据库。
第一确定单元包括:
第一获取子单元,用于获取查询信息;
第一确定子单元,用于确定查询信息中的关键词,并且,确定各个关键词的权重;
第二确定子单元,用于根据所述关键词以及关键词的权重确定查询信息的特征向量。
获取单元包括:
第三确定子单元,用于确定各个文档的特征向量;
计算子单元,用于根据各个文档的特征向量以及查询信息的特征向量分别计算各个文档与查询信息之间的特征向量相似度;
第二获取子单元,用于获取特征向量相似度大于预设相似度阈值的文档。
计算子单元具体用于:通过计算公式
Figure BDA0000049216340000041
计算文档与查询信息之间的特征向量相似度;
其中,qi表示查询信息的特征向量q中第i个分量的关键词权重,di表示文档的特征向量d中第i个分量的关键词权重。
搜索单元包括:
分词子单元,用于对所述搜索信息进行分词处理,并且,从分词得到的词项序列中删除预设的词项;确定删除后得到的词项序列中的关键词;
查找子单元,用于根据删除后得到的词项序列从索引数据库中查找得到各个词项对应的文档集合,确定所述各个词项对应的文档集合的交集;
排序子单元,用于将得到的所述交集中的文档按照与词项序列的关键词之间的关联度进行非升序排序,将位置靠前的预设数量个文档作为所述关联性最大的文档。
对于上述技术方案的技术效果分析如下:
根据预设的电力主题词表的分词词库对临时数据库中各个文档进行分词处理,将得到的分词结果按照倒排结构进行存储,得到索引数据库,从而用户进行搜索时,根据用户的搜索信息从该索引数据库中查找符合要求的文档,返回给客户,实现了对于电力关键词的全文检索;而且,将临时数据库以及索引数据库存储于云存储系统中,基于云存储系统本身的特性,能够提高整个检索方法的搜索性能。
附图说明
图1为本发明实施例基于云存储的电力全文检索方法流程示意图;
图2为本发明实施例另一种基于云存储的电力全文检索方法流程示意图;
图3为本发明实施例一种基于云存储的电力全文检索系统结构示意图。
具体实施方式
以下,结合附图详细说明本发明实施例基于云存储的进行电力全文检索的方法及系统的实现。
图1为本发明实施例一种基于云存储的电力全文检索方法流程示意图,如图1所示,该方法包括:
步骤101:获取查询信息,确定查询信息的特征向量;
步骤102:根据查询信息的特征向量获取特征向量相似度大于预设相似度阈值的文档,将获取到的文档存储于临时数据库中,所述临时数据库设置在云存储系统中;
步骤103:根据预设的电力主题词表的分词词库对临时数据库中各个文档进行分词处理,将得到的分词结果按照倒排结构进行存储,得到索引数据库,所述索引数据库也设置在云存储系统中;
步骤104:获取用户的搜索信息,从索引数据库中查找得到与所述搜索信息关联性最大的预设数量个文档,将所述文档返回给用户所在的客户端。
图1所示的本发明实施例检索方法中,根据预设的电力主题词表的分词词库对临时数据库中各个文档进行分词处理,将得到的分词结果按照倒排结构进行存储,得到索引数据库,从而用户进行搜索时,根据用户的搜索信息从该索引数据库中查找符合要求的文档,返回给客户,实现了对于电力关键词的全文检索;而且,将临时数据库以及索引数据库存储于云存储系统中,基于云存储系统本身的特性,能够提高整个检索方法的搜索性能。
在图1的基础上,通过图2对本发明实施例基于云存储的电力全文检索方法进行更为详细的说明,如图2所示,该方法包括:
步骤201:获取查询信息,确定查询信息的特征向量;
其中,在本发明实施例中,可以将查询信息或者后续从外部信息源中获取的每一个由文本信息构成的文档,都看作一个由(单词,单词权重)二元组构成的高维空间中的一个点,例如,由文本信息构成的一个文档对应着点p(<t1,w1>,<t2,w2>,...,<tm,wm>),从高维空间的原点到p点构成一个向量d(<t1,w1>,<t2,w2>,...,<tm,wm>),称之为该文档的特征向量d。
为了降低数据处理的复杂度,提高检索速度,在本发明实施例中,所述单词一般为查询信息以及文档中的关键词。
其中,本步骤中所述确定查询信息的特征向量包括:
确定查询信息中的关键词,并且,确定各个关键词的权重;
根据所述关键词以及关键词的权重确定查询信息的特征向量。
其中,在确定查询信息的关键词时,可以由进行查询的用户自主确定关键词,或者,也可以由系统自动进行查询信息中关键词的提取;
在确定关键词的权重时,其权重一般可以根据所述关键词对于用户的重要程度确定,例如,可以由用户根据系统提示进行各个关键词权重的设置,或者,由用户进行关键词之间重要程度的设置,由系统根据重要程度确定对应的权重。
步骤202:根据查询信息的特征向量从外部信息源中获取特征向量相似度大于预设相似度阈值的文档;
其中,所述外部信息源可以为:某一预设的关系型数据库,或者,互联网,或者,其他非结构化的文本信息等,这里不限定。
其中,本步骤的实现可以包括:
确定外部信息源中各个文档的特征向量;
根据各个文档的特征向量以及查询信息的特征向量分别计算文档与查询信息之间的特征向量相似度;
将特征向量相似度大于预设相似度阈值的文档作为获取的对象。
其中,确定外部信息源中各个文档的特征向量时,一般将查询向量中的关键词作为各个文档的关键词,而各个关键词的权重则可以根据该关键词在文档中出现的频率确定。
例如,可以将关键词w在文档i中的权重通过公式(1)进行计算:
weigh ( w , i ) = f wi lg ( N / n w ) &Sigma; k = 1 w i ( f ki ) 2 ( lg ( N / n k ) ) 2 - - - ( 1 )
其中,fwi为关键词w在文档i中出现的频率,即词频;N为外部信息源中文档的数目(单位为个数);nw为外部信息源中包含词条w的文档的个数(单位为个数);Wi为文档i中所有关键词的个数(单位为个数)。
在计算文档的特征向量与查询信息的特征向量之间的相似度时,可以通过计算两个向量的标准化点积作为相似度的计算结果。对于包含n个词条的查询信息的特征向量q和一个文档的特征向量d来说,它们之间的相似度可以通过公式(2)来计算:
similiarity ( q , d ) = &Sigma; i = 1 n q i d i &Sigma; i = 1 n ( q i ) 2 &Sigma; i = 1 n ( d i ) 2 - - - ( 2 )
其中,qi表示查询信息的特征向量q中第i个分量的单词权重,di表示文档的特征向量d中第i个分量的单词权重。
所述相似度阈值可以根据实际应用环境具体设定,这里并不限定。
步骤203:将获取到的文档存储于临时数据库中,所述临时数据库设置于云存储系统中。
其中,所述云存储系统可以使用现有的各种云存储系统实现,这里不赘述。
步骤204:根据预设的电力主题词表的分词词库对临时数据库中的各个文档进行分词处理,将得到的分词结果按照倒排结构进行存储,构成索引数据库,所述索引数据库存储于云存储系统中。
所述索引数据库中包括:词项以及该包含该词项的文档构成的文档集合。
其中,根据预设的电力主题词表的分词词库对临时数据库中的各个文档进行分词处理包括:
依次将待分词文档中字符串与分词词库中的各个词条进行匹配,如果匹配上,则存储该词条以及词条对应的信息,再继续进行该词条后续字符串的匹配,直到文档末端。
进行分词处理后得到的分词结果是正排结构,分词结果以文档为主字段,记录了每个文档中包含的词项,也即是说:每个文档对应一个由该文档所包含词项构成的词项集合。而倒排结构则以词项为主字段,记录了包含词项的所有文档,也即是说:每个词项对应一个由包含该词项的所有文档构成的文档集合。例如,正排结构是包括:文档1,词项集合{t1、t2、t3};文档2,词项集合{t1、t2、t4};而其对应的倒排结构则是:词项t1,文档集合{1、2};词项t2,文档集合{1、2};词项t3,文档集合{1};词项t4,文档集合{2}。
步骤205:接收用户的搜索请求,根据用户输入的搜索信息,从索引数据库中查找得到与所述搜索信息关联性最大的预设数量个文档,将所述文档返回给用户。
其中,本步骤的实现中,根据用户输入的搜索信息,从索引数据库中查找得到与所述搜索信息关联性最大的预设数量个文档的具体实现可以包括:
对所述搜索信息进行分词处理,并且,从分词得到的词项序列中删除预设的词项;确定删除后得到的词项序列中的关键词;
根据删除后得到的词项序列从索引数据库中查找得到各个词项对应的文档集合,确定所述各个词项对应的文档集合的交集;
将得到的所述交集中的文档按照与关键词之间的关联度进行非升序排序,将位置靠前的预设数量个文档作为所述关联性最大的文档。
其中,例如可以确定各个文档中出现关键词的次数,以关键词的次数作为确定关键词与文档之间关联度大小的依据。
另外,在实际应用中,还可以根据用户的行为日志和电力主题词表的分词词库,对检索结果进行分析、挖掘,并结合分析结果对上述非升序排序得到的排序结果进行优化。例如,当用户输入“电力变压器”查询时,可以通过读取分词词库中的相关资料,得知单相变压器、地下变压器、分裂变压器、干式变压器、换流变压器、降压变压器、接地变压器、壳式变压器、联络变压器、配电变压器、气体绝缘变压器、牵引变压器、三绕组变压器、心式变压器、油浸变压器、整流变压器、自耦变压器、power transformers等相近电力专业词汇,然后分析用户行为日志库,给出综合分析结果,结合该分析结果对上述非升序排序得到的排序结果进行优化,从而使得用户得到基于自身的行为日志、分词词库以及搜索信息优化后的搜索结果,从而使得最终返回给用户的文档更为符合用户的实际需求,具体的实现这里不赘述。
与所述方法相对应的,本发明实施例还提供了一种基于云存储的电力全文检索系统,如图3所示,该系统可以包括:
确定单元310,用于获取查询信息,确定查询信息的特征向量;
获取单元320,用于根据查询信息的特征向量获取特征向量相似度大于预设相似度阈值的文档,将获取到的文档存储于临时数据库中;
分词单元330,用于根据预设的电力主题词表的分词词库对临时数据库中各个文档进行分词处理,将得到的分词结果按照倒排结构进行存储,得到索引数据库;
搜索单元340,用于获取用户的搜索信息,从索引数据库中查找得到与所述搜索信息关联性最大的预设数量个文档,将所述文档返回给用户所在的客户端;
云存储系统350,用于存储临时数据库以及索引数据库。
优选地,确定单元310可以包括:
第一获取子单元,用于获取查询信息;
第一确定子单元,用于确定查询信息中的关键词,并且,确定各个关键词的权重;
第二确定子单元,用于根据所述关键词以及关键词的权重确定查询信息的特征向量。
获取单元320可以包括:
第三确定子单元,用于确定各个文档的特征向量;
计算子单元,用于根据各个文档的特征向量以及查询信息的特征向量分别计算各个文档与查询信息之间的特征向量相似度;
第二获取子单元,用于获取特征向量相似度大于预设相似度阈值的文档。
优选地,计算子单元具体可以用于:通过计算公式
Figure BDA0000049216340000101
计算文档与查询信息之间的特征向量相似度;
其中,qi表示查询信息的特征向量q中第i个分量的关键词权重,di表示文档的特征向量d中第i个分量的关键词权重。
搜索单元340可以包括:
分词子单元,用于对所述搜索信息进行分词处理,并且,从分词得到的词项序列中删除预设的词项;确定删除后得到的词项序列中的关键词;
查找子单元,用于根据删除后得到的词项序列从索引数据库中查找得到各个词项对应的文档集合,确定所述各个词项对应的文档集合的交集;
排序子单元,用于将得到的所述交集中的文档按照与词项序列的关键词之间的关联度进行非升序排序,将位置靠前的预设数量个文档作为所述关联性最大的文档。
图3所示的本发明实施例基于云存储的电力全文检索系统中,根据预设的电力主题词表的分词词库对临时数据库中各个文档进行分词处理,将得到的分词结果按照倒排结构进行存储,得到索引数据库,从而用户进行搜索时,根据用户的搜索信息从该索引数据库中查找符合要求的文档,返回给客户,实现了对于电力关键词的全文检索;而且,将临时数据库以及索引数据库存储于云存储系统中,基于云存储系统本身的特性,能够提高整个检索方法的搜索性能。
本领域普通技术人员可以理解,实现上述实施例的方法的过程可以通过程序指令相关的硬件来完成,所述的程序可以存储于可读取存储介质中,该程序在执行时执行上述方法中的对应步骤。所述的存储介质可以如:ROM/RAM、磁碟、光盘等。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (11)

1.一种基于云存储的电力全文检索方法,其特征在于,包括:
获取查询信息,确定查询信息的特征向量;
根据查询信息的特征向量获取特征向量相似度大于预设相似度阈值的文档,将获取到的文档存储于临时数据库中,所述临时数据库设置在云存储系统中;
根据预设的电力主题词表的分词词库对临时数据库中各个文档进行分词处理,将得到的分词结果按照倒排结构进行存储,得到索引数据库,所述索引数据库也设置在云存储系统中;
获取用户的搜索信息,从索引数据库中查找得到与所述搜索信息关联性最大的预设数量个文档,将所述文档返回给用户所在的客户端。
2.根据权利要求1所述的方法,其特征在于,确定查询信息的特征向量包括:
确定查询信息中的关键词,并且,确定各个关键词的权重;
根据所述关键词以及关键词的权重确定查询信息的特征向量。
3.根据权利要求1所述的方法,其特征在于,根据查询信息的特征向量获取特征向量相似度大于预设相似度阈值的文档包括:
确定各个文档的特征向量;
根据各个文档的特征向量以及查询信息的特征向量分别计算各个文档与查询信息之间的特征向量相似度;
获取特征向量相似度大于预设相似度阈值的文档。
4.根据权利要求3所述的方法,其特征在于,在确定各个文档的特征向量时,关键词w在文档i中的权重通过以下公式进行计算:
weigh ( w , i ) = f wi lg ( N / n w ) &Sigma; k = 1 w i ( f ki ) 2 ( lg ( N / n k ) ) 2
其中,fwi为关键词w在文档i中出现的频率;N为外部信息源中文档的数目;nw为外部信息源中包含词条w的文档的个数;Wi为文档i中所有关键词的个数。
5.根据权利要求3所述的方法,其特征在于,还包括:
通过计算公式
Figure FDA0000049216330000021
计算文档与查询信息之间的特征向量相似度;
其中,qi表示查询信息的特征向量q中第i个分量的关键词权重,di表示文档的特征向量d中第i个分量的关键词权重。
6.根据权利要求1至5任一项所述的方法,其特征在于,从索引数据库中查找得到与所述搜索信息关联性最大的预设数量个文档包括:
对所述搜索信息进行分词处理,并且,从分词得到的词项序列中删除预设的词项;确定删除后得到的词项序列中的关键词;
根据删除后得到的词项序列从索引数据库中查找得到各个词项对应的文档集合,确定所述各个词项对应的文档集合的交集;
将得到的所述交集中的文档按照与词项序列的关键词之间的关联度进行非升序排序,将位置靠前的预设数量个文档作为所述关联性最大的文档。
7.一种基于云存储的电力全文检索系统,其特征在于,包括:
第一确定单元,用于获取查询信息,确定查询信息的特征向量;
获取单元,用于根据查询信息的特征向量获取特征向量相似度大于预设相似度阈值的文档,将获取到的文档存储于临时数据库中;
分词单元,用于根据预设的电力主题词表的分词词库对临时数据库中各个文档进行分词处理,将得到的分词结果按照倒排结构进行存储,得到索引数据库;
搜索单元,用于获取用户的搜索信息,从索引数据库中查找得到与所述搜索信息关联性最大的预设数量个文档,将所述文档返回给用户所在的客户端;
云存储系统,用于存储临时数据库以及索引数据库。
8.根据权利要求7所述的系统,其特征在于,第一确定单元包括:
第一获取子单元,用于获取查询信息;
第一确定子单元,用于确定查询信息中的关键词,并且,确定各个关键词的权重;
第二确定子单元,用于根据所述关键词以及关键词的权重确定查询信息的特征向量。
9.根据权利要求7所述的系统,其特征在于,获取单元包括:
第三确定子单元,用于确定各个文档的特征向量;
计算子单元,用于根据各个文档的特征向量以及查询信息的特征向量分别计算各个文档与查询信息之间的特征向量相似度;
第二获取子单元,用于获取特征向量相似度大于预设相似度阈值的文档。
10.根据权利要求9所述的系统,其特征在于,计算子单元具体用于:通过计算公式
Figure FDA0000049216330000031
计算文档与查询信息之间的特征向量相似度;
其中,qi表示查询信息的特征向量q中第i个分量的关键词权重,di表示文档的特征向量d中第i个分量的关键词权重。
11.根据权利要求7至10任一项所述的系统,其特征在于,搜索单元包括:
分词子单元,用于对所述搜索信息进行分词处理,并且,从分词得到的词项序列中删除预设的词项;确定删除后得到的词项序列中的关键词;
查找子单元,用于根据删除后得到的词项序列从索引数据库中查找得到各个词项对应的文档集合,确定所述各个词项对应的文档集合的交集;
排序子单元,用于将得到的所述交集中的文档按照与词项序列的关键词之间的关联度进行非升序排序,将位置靠前的预设数量个文档作为所述关联性最大的文档。
CN 201110054382 2011-03-08 2011-03-08 一种基于云存储的电力全文检索方法及系统 Expired - Fee Related CN102156711B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110054382 CN102156711B (zh) 2011-03-08 2011-03-08 一种基于云存储的电力全文检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110054382 CN102156711B (zh) 2011-03-08 2011-03-08 一种基于云存储的电力全文检索方法及系统

Publications (2)

Publication Number Publication Date
CN102156711A true CN102156711A (zh) 2011-08-17
CN102156711B CN102156711B (zh) 2013-01-16

Family

ID=44438210

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110054382 Expired - Fee Related CN102156711B (zh) 2011-03-08 2011-03-08 一种基于云存储的电力全文检索方法及系统

Country Status (1)

Country Link
CN (1) CN102156711B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103077210A (zh) * 2012-12-28 2013-05-01 Tcl集团股份有限公司 一种基于云计算的数据获取方法及系统
CN103200036A (zh) * 2013-04-08 2013-07-10 国电南瑞科技股份有限公司 一种电力系统云计算平台的自动化配置方法
CN105912580A (zh) * 2016-03-31 2016-08-31 比美特医护在线(北京)科技有限公司 信息获取方法及装置和信息推送方法及装置
CN106844625A (zh) * 2017-01-17 2017-06-13 清华大学 银行运维规章制度变更的合规性查验方法及装置
CN107015961A (zh) * 2016-01-27 2017-08-04 中文在线数字出版集团股份有限公司 一种文本相似性比对方法
CN107577713A (zh) * 2017-08-03 2018-01-12 国网信通亿力科技有限责任公司 基于电力词典的文本处理方法
CN108363721A (zh) * 2018-01-03 2018-08-03 国网信通亿力科技有限责任公司 一种用户信息检索系统
CN108549697A (zh) * 2018-04-16 2018-09-18 北京百度网讯科技有限公司 基于语义关联的信息推送方法、装置、设备以及存储介质
CN110347820A (zh) * 2019-05-22 2019-10-18 贵州电网有限责任公司 一种电网文本信息匹配的方法、系统和存储介质
CN110855740A (zh) * 2019-09-27 2020-02-28 深圳市火乐科技发展有限公司 信息推送方法及相关设备
CN111291042A (zh) * 2019-12-23 2020-06-16 创意信息技术股份有限公司 一种用于供电服务的电力数据处理系统及方法
CN111552783A (zh) * 2020-04-30 2020-08-18 深圳前海微众银行股份有限公司 内容分析查询方法、装置、设备和计算机存储介质
CN115309790A (zh) * 2022-10-12 2022-11-08 国网山东省电力公司新泰市供电公司 一种电力系统中电力数据的查询监控系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6976053B1 (en) * 1999-10-14 2005-12-13 Arcessa, Inc. Method for using agents to create a computer index corresponding to the contents of networked computers
CN101930473A (zh) * 2010-09-14 2010-12-29 何吴迪 一种具有可执行结构的云计算视窗搜索体系的架构方法
CN101963979A (zh) * 2010-09-26 2011-02-02 百度在线网络技术(北京)有限公司 一种用于基于云计算提供搜索建议的方法与设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6976053B1 (en) * 1999-10-14 2005-12-13 Arcessa, Inc. Method for using agents to create a computer index corresponding to the contents of networked computers
CN101930473A (zh) * 2010-09-14 2010-12-29 何吴迪 一种具有可执行结构的云计算视窗搜索体系的架构方法
CN101963979A (zh) * 2010-09-26 2011-02-02 百度在线网络技术(北京)有限公司 一种用于基于云计算提供搜索建议的方法与设备

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103077210A (zh) * 2012-12-28 2013-05-01 Tcl集团股份有限公司 一种基于云计算的数据获取方法及系统
CN103200036A (zh) * 2013-04-08 2013-07-10 国电南瑞科技股份有限公司 一种电力系统云计算平台的自动化配置方法
CN103200036B (zh) * 2013-04-08 2015-10-14 国电南瑞科技股份有限公司 一种电力系统云计算平台的自动化配置方法
CN107015961B (zh) * 2016-01-27 2021-06-25 中文在线数字出版集团股份有限公司 一种文本相似性比对方法
CN107015961A (zh) * 2016-01-27 2017-08-04 中文在线数字出版集团股份有限公司 一种文本相似性比对方法
CN105912580A (zh) * 2016-03-31 2016-08-31 比美特医护在线(北京)科技有限公司 信息获取方法及装置和信息推送方法及装置
CN106844625B (zh) * 2017-01-17 2020-07-28 清华大学 银行运维规章制度变更的合规性查验方法及装置
CN106844625A (zh) * 2017-01-17 2017-06-13 清华大学 银行运维规章制度变更的合规性查验方法及装置
CN107577713A (zh) * 2017-08-03 2018-01-12 国网信通亿力科技有限责任公司 基于电力词典的文本处理方法
CN108363721A (zh) * 2018-01-03 2018-08-03 国网信通亿力科技有限责任公司 一种用户信息检索系统
CN108363721B (zh) * 2018-01-03 2020-08-25 国网信通亿力科技有限责任公司 一种基于数据挖掘的电力用户信息检索系统
CN108549697A (zh) * 2018-04-16 2018-09-18 北京百度网讯科技有限公司 基于语义关联的信息推送方法、装置、设备以及存储介质
CN110347820A (zh) * 2019-05-22 2019-10-18 贵州电网有限责任公司 一种电网文本信息匹配的方法、系统和存储介质
CN110855740A (zh) * 2019-09-27 2020-02-28 深圳市火乐科技发展有限公司 信息推送方法及相关设备
CN111291042A (zh) * 2019-12-23 2020-06-16 创意信息技术股份有限公司 一种用于供电服务的电力数据处理系统及方法
CN111552783A (zh) * 2020-04-30 2020-08-18 深圳前海微众银行股份有限公司 内容分析查询方法、装置、设备和计算机存储介质
CN115309790A (zh) * 2022-10-12 2022-11-08 国网山东省电力公司新泰市供电公司 一种电力系统中电力数据的查询监控系统

Also Published As

Publication number Publication date
CN102156711B (zh) 2013-01-16

Similar Documents

Publication Publication Date Title
CN102156711B (zh) 一种基于云存储的电力全文检索方法及系统
US8180785B2 (en) Method and system for searching numerical terms
US20220261427A1 (en) Methods and system for semantic search in large databases
CN103838833B (zh) 基于相关词语语义分析的全文检索系统
CN104537116B (zh) 一种基于标签的图书搜索方法
US8341112B2 (en) Annotation by search
CN104239513B (zh) 一种面向领域数据的语义检索方法
CN103593425B (zh) 基于偏好的智能检索方法及系统
CN108038096A (zh) 知识库文档快速检索方法、应用服务器计算机可读存储介质
CN103425687A (zh) 一种基于关键词的检索方法和系统
CN103136352A (zh) 基于双层语义分析的全文检索系统
JP2004501424A (ja) 中心用語辞典を利用した表題語の中心用語抽出方法及びそれを利用した情報検索システム及びその方法
CN105224521A (zh) 主题词提取方法及使用其获取相关数字资源的方法及装置
CN107844493B (zh) 一种文件关联方法及系统
CN104239373A (zh) 为文档添加标签的方法及装置
CN112988980B (zh) 目标产品查询方法、装置、计算机设备和存储介质
CN112507109A (zh) 一种基于语义分析与关键词识别的检索方法和装置
CN104391908B (zh) 一种图上基于局部敏感哈希的多关键字索引方法
CN115563313A (zh) 基于知识图谱的文献书籍语义检索系统
Chantrapornchai et al. Information extraction based on named entity for tourism corpus
KR20110133909A (ko) 모든 자연어 표현의 각각의 의미마다 별도의 용어를 동적으로 생성하는 방법 및 이를 기반으로 하는 사전 관리기,문서작성기, 용어 주석기, 검색 시스템 및 문서정보체계 구축장치
CN106933824A (zh) 在多个文档中确定与目标文档相似的文档集合的方法和装置
CN105354182A (zh) 获取相关数字资源的方法及使用其生成专题的方法及装置
CN112417175A (zh) 面向维修工单的文档检索方法、系统、计算机及存储介质
Cha et al. Topic model based approach for improved indexing in content based document retrieval

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: STATE ELECTRIC NET CROP.

Free format text: FORMER OWNER: STATE GRID INFORMATION + TELECOMMUNICATION CO., LTD.

Effective date: 20120815

Owner name: STATE GRID INFORMATION + TELECOMMUNICATION CO., LT

Free format text: FORMER OWNER: BEIJING SKYCLOUD TECHNOLOGY CO., LTD. BEIJING YOYO TIANYU SYSTEM TECHNOLOGY CO., LTD.

Effective date: 20120815

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 100761 XUANWU, BEIJING TO: 100031 XICHENG, BEIJING

TA01 Transfer of patent application right

Effective date of registration: 20120815

Address after: 100031 Xicheng District West Chang'an Avenue, No. 86, Beijing

Applicant after: State Grid Corporation of China

Applicant after: State Grid Information & Telecommunication Co.,Ltd.

Applicant after: SKYCLOUD TECHNOLOGY (CHINA). Inc.

Applicant after: BEIJING YOYO TIANYU SYSTEM TECHNOLOGY Co.,Ltd.

Address before: 100761 Beijing Xuanwu District city two, Baiguang Road

Applicant before: State Grid Information & Telecommunication Co.,Ltd.

Applicant before: Skycloud Technology (China). Inc.

Applicant before: Beijing YOYO Tianyu System Technology Co.,Ltd.

C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130116

CF01 Termination of patent right due to non-payment of annual fee