CN106294588A - 快速搜索所要查询内容的方法及装置 - Google Patents

快速搜索所要查询内容的方法及装置 Download PDF

Info

Publication number
CN106294588A
CN106294588A CN201610613409.XA CN201610613409A CN106294588A CN 106294588 A CN106294588 A CN 106294588A CN 201610613409 A CN201610613409 A CN 201610613409A CN 106294588 A CN106294588 A CN 106294588A
Authority
CN
China
Prior art keywords
data
inquired
node
vector
graphic structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610613409.XA
Other languages
English (en)
Inventor
陈乐华
涂继来
黄晓晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Idatatech Co Ltd
Original Assignee
Guangdong Idatatech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Idatatech Co Ltd filed Critical Guangdong Idatatech Co Ltd
Priority to CN201610613409.XA priority Critical patent/CN106294588A/zh
Publication of CN106294588A publication Critical patent/CN106294588A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本发明公开了一种快速搜索所要查询内容的方法及装置,方法包括:从互联网采集各种数据,并在图形数据库中将其与图形结构中对应节点进行关联存储;将非结构化数据转化为能分析应用的结构化数据;进行清洗并建立统一的数据模型;采用HBase数据库建立数据仓库,对清洗后的数据进行后加载到数据仓库中;通过公司名称、简称或股票代码将分散的数据进行关联,并按照图形结构中节点和关系的模式存储在相应的节点中;从图形结构中抽取每个节点中所存储的数据,建立中文索引;输入要查询的语句,采用遍历算法搜索相关的图形结构,将搜索出的图形结构按照相关性的大小进行排列。本发明能快速进行检索、查询高效准确、能给用户提供较好、匹配效率较高。

Description

快速搜索所要查询内容的方法及装置
技术领域
本发明涉及搜索引擎领域,特别涉及一种快速搜索所要查询内容的方法及装置。
背景技术
搜索引擎借助于网络爬虫才能在互联网海量数据中有效搜集到相关的网页信息。如何提高网络爬虫的搜索效率,是该领域研究的热点。传统的网络爬虫包括一个协议处理模块。URL(统一资源定位符,也称为网页地址,是因特网上标准的资源的地址)由两部分构成:协议模块和检测模块。其中,协议模块用来提供网络爬虫所需的网络协议,解决如何获取网页;检测模块负责对采集的URL信息进行排序,处理网络上重复内容,以提高网络爬虫的搜索效率。
但通用爬虫搜索存在如下不足之处:因为抓取的目标是覆盖尽可能大的网络,所以爬行的结果中必然会包含大量用户不需要的网页;无法很好地搜索和获取信息含量密集且具有一定结构的数据,通用搜索引擎大多是基于关键字的检索,对于支持语义信息的查询和索引引擎智能化的要求则难以实现。所以,通用爬虫想在爬行网页时,既保证网页的质量和数量,又要保证网页的实效性是很难实现的。
复杂网络搜索策略通常用一个消息传递的过程来描述。从一个给定的源节点开始,为了寻找所需要的信息,按照一定的规则向它的一个或多个邻居传递查询消息。如果收到查询的邻居节点上不含有源节点所需的信息,那么这些邻居节点再将查询消息传递给它们各自的邻居,重复这个过程直到存储着指定信息的目标节点被寻找到为止。然后目标节点将指定的信息传递给源节点。
传统的方法是通过BFS策略来遍历,在源节点s应用BFS策略搜索目标节点t时,源节点s首先判断自己的邻居节点中有无目标节点。若有,则中止搜索;若无,则向每个邻居查询它们的邻居节点中有无目标节点。重复这个过程一直到寻找到目标节点的任一个邻居为止。如果网络规模相当大,这样的处理方式会产生大量的查询消息流量,造成网络堵塞,严重影响查询的速度。
全文搜索引擎是最常用的搜索引擎,比较最熟悉的就是国外的代表Google和国内的代表百度。它们通常都是提取各个网站的网页文字存放在建立的数据库中,检索与用户查询条件相匹配的相关记录,然后按其自己设定的排列顺序将结果返回给用户。看似功能强大的搜索引擎,其实也存在众多弊端,例如由于数据来源广,重复的内容多而复杂;搜索特性有限,没有嵌套搜索,没有截词搜索,不支持全部的布尔逻辑检索;死链率较高,链接信息不完整。
随着AJAX/Web2.0的流行,如何抓取AJAX等动态页面成了搜索引擎急需解决的问题,如果搜索引擎依旧采用“爬”的机制,是无法抓取到AJAX页面的有效数据的。对于AJAX这样的技术,所需要的爬虫引擎必须是基于驱动的。而如果想要实现事件驱动,首先需要解决以下问题:第一,Javascript的交互分析和解释;第二,DOM事件的处理和解释分发;第三,动态DOM内容语义的抽取。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种能快速进行检索、查询高效准确、能给用户提供较好、匹配效率较高的快速搜索所要查询内容的方法及装置。
本发明解决其技术问题所采用的技术方案是:构造一种快速搜索所要查询内容的方法,包括如下步骤:
A)使用网络爬虫系统从互联网采集各种数据,并在图形数据库中将采集的数据与图形结构中对应节点进行关联存储;所述图形结构包括若干个节点,具有关系的节点之间通过有向连接线连接;
B)将所述采集的数据中非结构化数据转化为能分析应用的结构化数据;
C)对所述结构化数据进行清洗,并根据业务领域及来源建立统一的数据模型;
D)根据所述数据模型采用HBase数据库建立数据仓库,通过对清洗后的数据进行抽取、转换和加载处理,将分散的数据加载到所述数据仓库中;
E)通过公司名称、简称或股票代码将所述分散的数据进行关联,并将所述分散的数据按照所述图形结构中节点和关系的模式存储在相应的节点中;
F)从所述图形结构中抽取每个所述节点中所存储的数据,并建立中文索引;
G)用户输入要查询的语句,采用遍历算法搜索相关的图形结构,并将搜索出的图形结构按照相关性的大小进行排列。
在本发明所述的快速搜索所要查询内容的方法中,所述图形数据库是节点与关系的集合。
在本发明所述的快速搜索所要查询内容的方法中,所述步骤G)进一步包括:
G1)将要查询的语句中每个词的权重组成查询向量,把搜索出的图形结构中节点中所存储的数据中对应词的权重组成文档向量;
G2)将每个所述文档向量和查询向量放入N维度的空间中,每个词表示一维;所述N等于所述文档向量或查询向量中词的个数;
G3)计算每个所述文档向量与所述查询向量之间的夹角,按照夹角从小到大的顺序进行排列。
在本发明所述的快速搜索所要查询内容的方法中,当通过属性查找一个节点或关系时,通过所述中文索引进行查找。
本发明还涉及一种实现上述快速搜索所要查询内容的方法的装置,其特征在于,包括:
数据采集存储单元:用于使用网络爬虫系统从互联网采集各种数据,并在图形数据库中将采集的数据与图形结构中对应节点进行关联存储;所述图形结构包括若干个节点,具有关系的节点之间通过有向连接线连接;
数据转换单元:用于将所述采集的数据中非结构化数据转化为能分析应用的结构化数据;
数据模型建立单元:用于对所述结构化数据进行清洗,并根据业务领域及来源建立统一的数据模型;
数据加载单元:用于根据所述数据模型采用HBase数据库建立数据仓库,通过对清洗后的数据进行抽取、转换和加载处理,将分散的数据加载到所述数据仓库中;
关联存储单元:用于通过公司名称、简称或股票代码将所述分散的数据进行关联,并将所述分散的数据按照所述图形结构中节点和关系的模式存储在相应的节点中;
索引建立单元:用于从所述图形结构中抽取每个所述节点中所存储的数据,并建立中文索引;
搜索排列单元:用于使用户输入要查询的语句,采用遍历算法搜索相关的图形结构,并将搜索出的图形结构按照相关性的大小进行排列。
在本发明所述的实现上述快速搜索所要查询内容的方法的装置中,所述图形数据库是节点与关系的集合。
在本发明所述的实现上述快速搜索所要查询内容的方法的装置中,所述搜索排列单元进一步包括:
向量组成模块:用于将要查询的语句中每个词的权重组成查询向量,把搜索出的图形结构中节点中所存储的数据中对应词的权重组成文档向量;
向量维度模块:用于将每个所述文档向量和查询向量放入N维度的空间中,每个词表示一维;所述N等于所述文档向量或查询向量中词的个数;
向量夹角计算排列模块:用于计算每个所述文档向量与所述查询向量之间的夹角,按照夹角从小到大的顺序进行排列。
在本发明所述的实现上述快速搜索所要查询内容的方法的装置中,当通过属性查找一个节点或关系时,通过所述中文索引进行查找。
实施本发明的快速搜索所要查询内容的方法及装置,具有以下有益效果:通过数据模型可以实现快速进行检索;通过建立中文索引,在用户使用的时候,能够通过模糊的字眼搜索出目标,高精度的分词和组合查询使得查询变得高效准确。与图形数据相结合,可以给用户提供较好的使用体验;将图形结构中节点的属性值交由搜索引擎检索,对于节点与关系则通过图形结构来检索,其匹配效率较高,所以其能快速进行检索、查询高效准确、能给用户提供较好、匹配效率较高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明快速搜索所要查询内容的方法及装置一个实施例中方法的流程图;
图2为所述实施例中用户输入要查询的语句,采用遍历算法搜索相关的图形结构,并将搜索出的图形结构按照相关性的大小进行排列的具体流程图;
图3为所述实施例中装置的结构示意图;
图4为所述实施例中有向无环图形结构的示意图;
图5为所述实施例中图形数据库模型的示意图;
图6为所述实施例中图形结构遍历的示意图;
图7为所述实施例中中文索引的示意图;
图8为所述实施例中文档向量与查询向量的向量坐标示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明快速搜索所要查询内容的方法及装置实施例中,其快速搜索所要查询内容的方法的流程图如图1所示。图1中,该快速搜索所要查询内容的方法包括如下步骤:
步骤S01使用网络爬虫系统从互联网采集各种数据,并在图形数据库中将采集的数据与图形结构中对应节点进行关联存储:本步骤中,使用网络爬虫系统从互联网采集各种数据,并在图形数据库中将采集的数据与图形结构中对应节点进行关联存储。该网络爬虫系统为高性能的网络爬虫系统,采集的数据实际上被保存在分布式文件系统Hadoop中,供后续处理使用,为数据处理、疑点分析以及稽查取证提供有力依据。
值得一提的是,本实施例中,该图形结构包括若干个节点,具有关系的节点之间通过有向连接线(即有方向的连接线)连接。图4为本实施例中有向无环图形结构的示意图,图中的圆圈表示节点,节点表示一个实体,例如人或商品,边表示节点与节点之间的连接关系,可以是有方向和无方向的,如用户A买了商品B表示为A->B;如果用户A与用户C相互都认识,这种关系就是双向的,表示为A<->C。
图形数据库可以看作是节点与关系的集合,图形数据库就是将采集的数据存储在拥有属性的节点中,并用关系将这些节点组织起来,如图5所示。
图形数据库擅长关联关系查找,但对于属性的查找,特别是中文的匹配效率低下,本发明将图形数据库结合搜索引擎,将图形数据库中的属性值交由搜索引擎检索,对于节点关系则通过图形结构来检索。当然,在本实施例的一些情况下,通过网络爬虫有效的对万维网上的开放网页资源进行提取,并利用这些信息,这样就会大大减少人力物力。通过选择正确的网页抓取策略,利用网页分析算法和拓扑分析算法,进行机械式的获取数据。
步骤S02将采集的数据中非结构化数据转化为能分析应用的结构化数据:本步骤中,当采集的数据被保存后,将对采集的数据进行统一处理,将采集的数据中非结构化数据转化为能分析应用的结构化数据。
步骤S03对结构化数据进行清洗,并根据业务领域及来源建立统一的数据模型:本步骤中,对结构化数据进行清洗,以去除噪音,为后续分析提供搞质量数据来源,清理后的数据根据业务领域及数据来源,系统将分析并建立统一的数据模型。
步骤S04根据数据模型采用HBase数据库建立数据仓库,通过对清洗后的数据进行抽取、转换和加载处理,将分散的数据加载到数据仓库中:本步骤中,根据数据模型采用HBase数据库建立新的数据仓库NDW,在此基础上整合所有的数据资源,通过对清洗后的数据进行抽取、转换和加载处理,这样就可以将分散的数据加载到数据仓库NDW中。
步骤S05通过公司名称、简称或股票代码将分散的数据进行关联,并将分散的数据按照图形结构中节点和关系的模式存储在相应的节点中:本步骤中,将分散的数据再次进行加工,通过公司名称、简称或股票代码将分散的数据进行关联,这个过程使用了图形数据库,所有的分散的数据都会按照节点和关系的模式存储在相应的节点中。数据存储的重要目的是为了后续的检索。对于查找节点间关系,展示节点多层关系上,使用该数据模型可以快速进行检索。
步骤S06从图形结构中抽取每个节点中所存储的数据,并建立中文索引:本步骤中,从图形结构中抽取每个节点中所存储的数据,并建立中文索引。在用户使用的时候,能够通过模糊的字眼去搜索出目标。高精度的分词和组合查询,使得查询变得高效准确,与图形数据相结合,可以给用户提供极好的使用体验。当通过属性查找一个节点或关系时,通过中文索引进行查找。
步骤S07用户输入要查询的语句,采用遍历算法搜索相关的图形结构,并将搜索出的图形结构按照相关性的大小进行排列:本步骤中,用户输入要查询的语句,采用遍历算法搜索相关的图形结构,并将搜索出的图形结构按照相关性的大小进行排列。具体来讲,图形结构的查找与搜索通过遍历算法完成,根据该遍历算法,从开始节点到与之相连的节点查询诸如“我好友的好友是那些人”等问题。所以通过遍历算法可以对图形结构进行导航与操作,从而确定节点之间的路径,如图6所示。
如图7所示,通过建立中文索引,可以更快、更高效的查找某个节点。通常情况下,可能只想通过属性去查找一个确定的节点或关系,而不是遍历整个图形结构。在这种情况下,就可以通过中文索引来查找某个节点,如“根据用户名定位用户节点”等。本发明的快速搜索所要查询内容的方法能快速进行检索、查询高效准确、能给用户提供较好、匹配效率较高。
对于本实施例而言,上述步骤S07还可进一步细化,其细化后的流程图如图2所示。图2中,上述步骤S07进一步包括:
步骤S71将要查询的语句中每个词的权重组成查询向量,把搜索出的图形结构中节点中所存储的数据中对应词的权重组成文档向量:本步骤中,将要查询的语句中每个词的权重组成查询向量,把搜索出的图形结构中节点中所存储的数据中对应词的权重组成文档向量。
具体来讲,把要查询的语句看作是一个文档,对文档与文档之间的相关性进行打分,分数越高越相关,排名就越靠前。当然还可以人工影响打分,比如百度搜索,就不一定完全按照相关性来排名的。一个文档由多个(或者一个)词(本实施例用Term来表示)组成,比如:“solr”、“toturial”,不同的词可能重要性不一样,比如solr就比toturial重要,如果一个文档出现了10次toturial,但只出现了一次solr,而另一文档solr出现了4次,toturial出现一次,那么后者很有可能就是想要的搜的结果,这就引申出权重(本实施例用Termweight来表示)的概念。
权重表示该词在文档中的重要程度,越重要的词,其权重越高,因此在计算文档相关性时影响力就更大。通过词之间的权重得到文档相关性的过程叫做空间向量模型算法(Vector Space Model)。影响一个词在文档中的重要性主要有两个方面:Term Frequencey(简写为tf)和Document Frequency(简写为df),Term Frequencey表示Term在此文档中出现的频率,tf越大表示越重要;Document Frequency表示有多少文档中出现过这个Trem,df越大表示越不重要。权重的公式如下:
Wt,d=tft,d×log(n/dft)
其中,Wt,d为文件的权重,tft,d为文件的词频,n为文件总数,dft为包含权的文件数。
本实施例中,将文档中词的权重看作一个向量,Document={term1,term2,……,termN},Document为文档,term1,term2,……,termN为文档中的词;Document Vector={weight1,weight2,……,weight N},Document Vector为搜索出的文档向量,weight1,weight2,……,weight N为文档向量中每个词的权重。
把要查询的语句看作一个简单的文档,也用向量表示:Query={term11,term12,……,term1N},Query为要查询的语句,term11,term 12,……,term1N,为要查询的语音中的词,Query Vector={weight11,weight12,……,weight 1N},Query Vector为查询向量,weight11,weight12,……,weight 1N为查询向量中每个词的权重。
步骤S72将每个文档向量和查询向量放入N维度的空间中,每个词表示一维:本步骤中,将每个文档向量和查询向量放入N维度的空间中,如图8所示。每个词表示一维,N等于文档向量或查询向量中词的个数。
步骤S73计算每个文档向量与查询向量之间的夹角,按照夹角从小到大的顺序进行排列:本步骤中,计算每个文档向量与查询向量之间的夹角,按照夹角从小到大的顺序进行排列。夹角越小,表示越相似,相关性越大。
本实施例还涉及一种实现上述快速搜索所要查询内容的方法的装置,其结构示意图如图3所示。图3中,该装置包括数据采集存储单元1、数据转换单元2、数据模型建立单元3、数据加载单元4、关联存储单元5、索引建立单元6和搜索排列单元7;其中,数据采集存储单元1用于使用网络爬虫系统从互联网采集各种数据,并在图形数据库中将采集的数据与图形结构中对应节点进行关联存储;上述图形结构包括若干个节点,具有关系的节点之间通过有向连接线连接;图形数据库是节点与关系的集合。
本实施例中,数据转换单元2用于将采集的数据中非结构化数据转换为能分析应用的结构化数据;数据模型建立单元3用于对结构化数据进行清洗,并根据业务领域及来源建立统一的数据模型;数据加载单元4用于根据数据模型采用HBase数据库建立数据仓库,通过对清洗后的数据进行抽取、转换和加载处理,将分散的数据加载到数据仓库中;关联存储单元5用于通过公司名称、简称或股票代码将分散的数据进行关联,并将分散的数据按照图形结构中节点和关系的模式存储在相应的节点中;索引建立单元6用于从图形结构中抽取每个节点中所存储的数据,并建立中文索引;当通过属性查找一个节点或关系时,通过中文索引进行查找。搜索排列单元7用于使用户输入要查询的语句,采用遍历算法搜索相关的图形结构,并将搜索出的图形结构按照相关性的大小进行排列。本发明的装置能快速进行检索、查询高效准确、能给用户提供较好、匹配效率较高。
本实施例中,搜索排列单元7进一步包括向量组成模块71、向量维度模块72和向量夹角计算排列模块73;其中,向量组成模块71用于将要查询的语句中每个词的权重组成查询向量,把搜索出的图形结构中节点中所存储的数据中对应词的权重组成文档向量;向量维度模块72用于将每个文档向量和查询向量放入N维度的空间中,每个词表示一维;N等于文档向量或查询向量中词的个数;向量夹角计算排列模块73用于计算每个文档向量与查询向量之间的夹角,按照夹角从小到大的顺序进行排列。
总之,在本实施例中,通过数据模型可以实现快速进行检索;通过建立中文索引,在用户使用的时候,能够通过模糊的字眼搜索出目标,高精度的分词和组合查询使得查询变得高效准确。与图形数据相结合,可以给用户提供较好的使用体验;将图形结构中节点的属性值交由搜索引擎检索,对于节点与关系则通过图形结构来检索,其匹配效率较高。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种快速搜索所要查询内容的方法,其特征在于,包括如下步骤:
A)使用网络爬虫系统从互联网采集各种数据,并在图形数据库中将采集的数据与图形结构中对应节点进行关联存储;所述图形结构包括若干个节点,具有关系的节点之间通过有向连接线连接;
B)将所述采集的数据中非结构化数据转化为能分析应用的结构化数据;
C)对所述结构化数据进行清洗,并根据业务领域及来源建立统一的数据模型;
D)根据所述数据模型采用HBase数据库建立数据仓库,通过对清洗后的数据进行抽取、转换和加载处理,将分散的数据加载到所述数据仓库中;
E)通过公司名称、简称或股票代码将所述分散的数据进行关联,并将所述分散的数据按照所述图形结构中节点和关系的模式存储在相应的节点中;
F)从所述图形结构中抽取每个所述节点中所存储的数据,并建立中文索引;
G)用户输入要查询的语句,采用遍历算法搜索相关的图形结构,并将搜索出的图形结构按照相关性的大小进行排列。
2.根据权利要求1所述的快速搜索所要查询内容的方法,其特征在于,所述图形数据库是节点与关系的集合。
3.根据权利要求2所述的快速搜索所要查询内容的方法,其特征在于,所述步骤G)进一步包括:
G1)将要查询的语句中每个词的权重组成查询向量,把搜索出的图形结构中节点中所存储的数据中对应词的权重组成文档向量;
G2)将每个所述文档向量和查询向量放入N维度的空间中,每个词表示一维;所述N等于所述文档向量或查询向量中词的个数;
G3)计算每个所述文档向量与所述查询向量之间的夹角,按照夹角从小到大的顺序进行排列。
4.根据权利要求1至3任意一项所述的快速搜索所要查询内容的方法,其特征在于,当通过属性查找一个节点或关系时,通过所述中文索引进行查找。
5.一种实现如权利要求1所述的快速搜索所要查询内容的方法的装置,其特征在于,包括:
数据采集存储单元:用于使用网络爬虫系统从互联网采集各种数据,并在图形数据库中将采集的数据与图形结构中对应节点进行关联存储;所述图形结构包括若干个节点,具有关系的节点之间通过有向连接线连接;
数据转换单元:用于将所述采集的数据中非结构化数据转化为能分析应用的结构化数据;
数据模型建立单元:用于对所述结构化数据进行清洗,并根据业务领域及来源建立统一的数据模型;
数据加载单元:用于根据所述数据模型采用HBase数据库建立数据仓库,通过对清洗后的数据进行抽取、转换和加载处理,将分散的数据加载到所述数据仓库中;
关联存储单元:用于通过公司名称、简称或股票代码将所述分散的数据进行关联,并将所述分散的数据按照所述图形结构中节点和关系的模式存储在相应的节点中;
索引建立单元:用于从所述图形结构中抽取每个所述节点中所存储的数据,并建立中文索引;
搜索排列单元:用于使用户输入要查询的语句,采用遍历算法搜索相关的图形结构,并将搜索出的图形结构按照相关性的大小进行排列。
6.根据权利要求5所述的实现如权利要求1所述的快速搜索所要查询内容的方法的装置,其特征在于,所述图形数据库是节点与关系的集合。
7.根据权利要求6所述的实现如权利要求1所述的快速搜索所要查询内容的方法的装置,其特征在于,所述搜索排列单元进一步包括:
向量组成模块:用于将要查询的语句中每个词的权重组成查询向量,把搜索出的图形结构中节点中所存储的数据中对应词的权重组成文档向量;
向量维度模块:用于将每个所述文档向量和查询向量放入N维度的空间中,每个词表示一维;所述N等于所述文档向量或查询向量中词的个数;
向量夹角计算排列模块:用于计算每个所述文档向量与所述查询向量之间的夹角,按照夹角从小到大的顺序进行排列。
8.根据权利要求5至7任意一项所述的实现如权利要求1所述的快速搜索所要查询内容的方法的装置,其特征在于,当通过属性查找一个节点或关系时,通过所述中文索引进行查找。
CN201610613409.XA 2016-07-28 2016-07-28 快速搜索所要查询内容的方法及装置 Pending CN106294588A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610613409.XA CN106294588A (zh) 2016-07-28 2016-07-28 快速搜索所要查询内容的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610613409.XA CN106294588A (zh) 2016-07-28 2016-07-28 快速搜索所要查询内容的方法及装置

Publications (1)

Publication Number Publication Date
CN106294588A true CN106294588A (zh) 2017-01-04

Family

ID=57663189

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610613409.XA Pending CN106294588A (zh) 2016-07-28 2016-07-28 快速搜索所要查询内容的方法及装置

Country Status (1)

Country Link
CN (1) CN106294588A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107092639A (zh) * 2017-02-23 2017-08-25 武汉智寻天下科技有限公司 一种搜索引擎系统
CN107169083A (zh) * 2017-05-11 2017-09-15 聚龙融创科技有限公司 公安卡口海量车辆数据存储与检索方法及装置、电子设备
CN107515951A (zh) * 2017-09-20 2017-12-26 广东中标数据科技股份有限公司 一种基于图形数据库的搜索方法、系统和装置
CN109063219A (zh) * 2018-10-30 2018-12-21 深圳市海能通信股份有限公司 一种大数据结构化查询系统
CN109377375A (zh) * 2018-09-03 2019-02-22 平安科技(深圳)有限公司 基金关系图谱生成方法、系统、计算机设备和存储介质
CN109408704A (zh) * 2018-09-03 2019-03-01 平安科技(深圳)有限公司 基金数据关联方法、系统、计算机设备和存储介质
CN109753504A (zh) * 2018-12-13 2019-05-14 新华三大数据技术有限公司 数据查询方法及装置
CN110413848A (zh) * 2019-07-19 2019-11-05 上海赜睿信息科技有限公司 一种数据检索方法、电子设备和计算机可读存储介质
WO2020048058A1 (zh) * 2018-09-03 2020-03-12 平安科技(深圳)有限公司 基金知识推理方法、系统、计算机设备和存储介质
CN111223533A (zh) * 2019-12-24 2020-06-02 深圳市联影医疗数据服务有限公司 一种医疗数据检索方法及系统
CN111984851A (zh) * 2020-09-03 2020-11-24 平安国际智慧城市科技股份有限公司 医学资料搜索方法、装置、电子装置及存储介质
CN112084248A (zh) * 2020-09-11 2020-12-15 党丹 基于图数据库的智能数据检索查阅与模型获取方法
CN112836063A (zh) * 2021-01-27 2021-05-25 四川新网银行股份有限公司 一种实现特征溯源的方法
CN113010548A (zh) * 2020-12-28 2021-06-22 魔元术(苏州)信息科技有限公司 一种用于数据看板的自动化匹配图形系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6915290B2 (en) * 2001-12-11 2005-07-05 International Business Machines Corporation Database query optimization apparatus and method that represents queries as graphs
CN101075304A (zh) * 2006-05-18 2007-11-21 河北全通通信有限公司 电信行业基于数据仓库的决策支持系统的构造方法
JP2008181331A (ja) * 2007-01-24 2008-08-07 Nippon Telegr & Teleph Corp <Ntt> 関係抽出方法、関係抽出システム
CN101251841A (zh) * 2007-05-17 2008-08-27 华东师范大学 基于语义的Web文档的特征矩阵的建立和检索方法
CN102193983A (zh) * 2011-03-25 2011-09-21 北京世纪互联工程技术服务有限公司 图形数据库基于关系路径的节点数据过滤方法
CN102855332A (zh) * 2012-09-24 2013-01-02 上海天玑科技股份有限公司 一种基于图形数据库的图形配置管理数据库
CN104123369A (zh) * 2014-07-24 2014-10-29 中国移动通信集团广东有限公司 一种基于图形数据库的配置管理数据库系统及实现方法
CN105608232A (zh) * 2016-02-17 2016-05-25 扬州大学 一种基于图形数据库的bug知识建模方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6915290B2 (en) * 2001-12-11 2005-07-05 International Business Machines Corporation Database query optimization apparatus and method that represents queries as graphs
CN101075304A (zh) * 2006-05-18 2007-11-21 河北全通通信有限公司 电信行业基于数据仓库的决策支持系统的构造方法
JP2008181331A (ja) * 2007-01-24 2008-08-07 Nippon Telegr & Teleph Corp <Ntt> 関係抽出方法、関係抽出システム
CN101251841A (zh) * 2007-05-17 2008-08-27 华东师范大学 基于语义的Web文档的特征矩阵的建立和检索方法
CN102193983A (zh) * 2011-03-25 2011-09-21 北京世纪互联工程技术服务有限公司 图形数据库基于关系路径的节点数据过滤方法
CN102855332A (zh) * 2012-09-24 2013-01-02 上海天玑科技股份有限公司 一种基于图形数据库的图形配置管理数据库
CN104123369A (zh) * 2014-07-24 2014-10-29 中国移动通信集团广东有限公司 一种基于图形数据库的配置管理数据库系统及实现方法
CN105608232A (zh) * 2016-02-17 2016-05-25 扬州大学 一种基于图形数据库的bug知识建模方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
字凤芹 等: "基于图数据库的电影推荐系统设计", 《软件导刊》 *
江君: "基于网页内容的海量数据管理系统的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107092639A (zh) * 2017-02-23 2017-08-25 武汉智寻天下科技有限公司 一种搜索引擎系统
CN107169083A (zh) * 2017-05-11 2017-09-15 聚龙融创科技有限公司 公安卡口海量车辆数据存储与检索方法及装置、电子设备
CN107169083B (zh) * 2017-05-11 2020-03-31 聚龙融创科技有限公司 公安卡口海量车辆数据存储与检索方法及装置、电子设备
CN107515951A (zh) * 2017-09-20 2017-12-26 广东中标数据科技股份有限公司 一种基于图形数据库的搜索方法、系统和装置
CN109408704A (zh) * 2018-09-03 2019-03-01 平安科技(深圳)有限公司 基金数据关联方法、系统、计算机设备和存储介质
CN109408704B (zh) * 2018-09-03 2023-05-30 平安科技(深圳)有限公司 基金数据关联方法、系统、计算机设备和存储介质
WO2020048058A1 (zh) * 2018-09-03 2020-03-12 平安科技(深圳)有限公司 基金知识推理方法、系统、计算机设备和存储介质
WO2020048059A1 (zh) * 2018-09-03 2020-03-12 平安科技(深圳)有限公司 基金数据关联方法、系统、计算机设备和存储介质
CN109377375A (zh) * 2018-09-03 2019-02-22 平安科技(深圳)有限公司 基金关系图谱生成方法、系统、计算机设备和存储介质
CN109063219A (zh) * 2018-10-30 2018-12-21 深圳市海能通信股份有限公司 一种大数据结构化查询系统
CN109753504A (zh) * 2018-12-13 2019-05-14 新华三大数据技术有限公司 数据查询方法及装置
CN110413848A (zh) * 2019-07-19 2019-11-05 上海赜睿信息科技有限公司 一种数据检索方法、电子设备和计算机可读存储介质
CN111223533A (zh) * 2019-12-24 2020-06-02 深圳市联影医疗数据服务有限公司 一种医疗数据检索方法及系统
CN111223533B (zh) * 2019-12-24 2024-02-13 深圳市联影医疗数据服务有限公司 一种医疗数据检索方法及系统
CN111984851A (zh) * 2020-09-03 2020-11-24 平安国际智慧城市科技股份有限公司 医学资料搜索方法、装置、电子装置及存储介质
CN111984851B (zh) * 2020-09-03 2023-11-14 深圳平安智慧医健科技有限公司 医学资料搜索方法、装置、电子装置及存储介质
CN112084248A (zh) * 2020-09-11 2020-12-15 党丹 基于图数据库的智能数据检索查阅与模型获取方法
CN113010548A (zh) * 2020-12-28 2021-06-22 魔元术(苏州)信息科技有限公司 一种用于数据看板的自动化匹配图形系统
CN112836063A (zh) * 2021-01-27 2021-05-25 四川新网银行股份有限公司 一种实现特征溯源的方法
CN112836063B (zh) * 2021-01-27 2023-06-06 四川新网银行股份有限公司 一种实现特征溯源的方法

Similar Documents

Publication Publication Date Title
CN106294588A (zh) 快速搜索所要查询内容的方法及装置
CN104077377B (zh) 基于网络文章属性的网络舆情热点发现方法和装置
Zubiaga Enhancing navigation on wikipedia with social tags
CN102129479B (zh) 一种基于概率潜在语义分析模型的万维网服务发现方法
CN103116635B (zh) 面向领域的暗网资源采集方法和系统
CN105243149B (zh) 一种基于语义的查询推荐方法和系统
US9971828B2 (en) Document tagging and retrieval using per-subject dictionaries including subject-determining-power scores for entries
Prajapati A survey paper on hyperlink-induced topic search (HITS) algorithms for web mining
CN111859065A (zh) 一种基于大数据的舆情聆听系统
CN102063454A (zh) 一种搜索与应用相结合的方法和设备
CN103226601B (zh) 一种图片搜索的方法和装置
Neogy et al. Machine Learning as a New Search Engine Interface: An Overview
CN103823847A (zh) 一种关键词的扩充方法及装置
Rani et al. Efficient query clustering technique and context well-informed document clustering
Zhou et al. Discovering web communities in the blogspace
Moumtzidou et al. Discovery of environmental nodes in the web
Khan et al. Self-adaptive ontology-based focused crawling: a literature survey
Dai et al. Search Engine System Based on Ontology of Technological Resources.
Zhou et al. Community discovery and analysis in blogspace
Ganguly et al. Performance optimization of focused web crawling using content block segmentation
Kumar et al. Focused crawling based upon tf-idf semantics and hub score learning
Sreeja et al. Review of web crawlers
Archana et al. Location based semantic information retrieval from web documents using web crawler
Poonkuzhali et al. Elimination of redundant links in web pages–Mathematical Approach
Sajeev A community based web summarization in near linear time

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170104