CN105488197A - 垂直搜索中按域检索方法、新增文档处理方法和装置 - Google Patents
垂直搜索中按域检索方法、新增文档处理方法和装置 Download PDFInfo
- Publication number
- CN105488197A CN105488197A CN201510890764.7A CN201510890764A CN105488197A CN 105488197 A CN105488197 A CN 105488197A CN 201510890764 A CN201510890764 A CN 201510890764A CN 105488197 A CN105488197 A CN 105488197A
- Authority
- CN
- China
- Prior art keywords
- domain
- document
- retrieval
- name
- newly
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种垂直搜索中按域检索方法,所述方法包括:垂直搜索中接收得到发起的检索请求,提取所述检索请求中的检索串和指定域名;转换所述检索串,以根据所述指定域名为所述检索串附加域名信息;根据所述附加域名信息的检索串匹配得到对应的倒排索引;通过所述匹配得到的倒排索引返回检索结果。此外,还提供了一种与该访求匹配的垂直搜索按域检索装置以及相对应的垂直搜索中新增文档处理方法和装置。上述垂直搜索中按域检索方法和装置、垂直搜索中新增文档处理方法和装置能够简化按域检索的实现和维护,极大地降低了运营维护成本。
Description
技术领域
本发明涉及互联网应用中的数据处理技术领域,特别涉及一种垂直搜索中按域检索方法、新增文档处理方法和装置。
背景技术
随着搜索引擎技术的发展,高速发展的搜索引擎技术支撑着各应用的搜索业务,以在对各搜索业务的支撑中实现各应用的垂直搜索功能。
垂直搜索中由于可供搜索的文档很多,因此文档中数据结构较为复杂,一文档大都涉及了多个字段域,以方便实现垂直搜索中的按域检索。但是,由于字段域较多,在检索中各字段域相互之间会存在着一定的干扰,现有的按域检索方案大都是在为文档建立全量索引的同时,还针对其所对应的域建立索引,以便于实现指定域的检索。
然而,在众多的文档中,针对任一文档,需要对全量索引进行维护和存储的同时,而针对域所建立的特殊索引也需要进行相应的维护和存储,因此,现有的按域检索方案非常繁琐,存在着极高的运营维护成本。
发明内容
基于此,有必要提供一种垂直搜索中按域检索方法和装置,所述方法和装置能够简化按域检索的实现和维护,极大地降低了运营维护成本。
此外,还有必要提供一种垂直搜索中新增文档处理方法和装置,所述方法和装置能够简化按域检索的实现和维护,极大地降低了运营维护成本。
为解决上述技术问题,将采用如下技术方案:
一种垂直搜索中按域检索方法,包括:
垂直搜索中接收得到发起的检索请求,提取所述检索请求中的检索串和指定域名;
转换所述检索串,以根据所述指定域名为所述检索串附加域名信息;
根据所述附加域名信息的检索串匹配得到对应的倒排索引;
通过所述匹配得到的倒排索引返回检索结果。
一种垂直搜索中新增文档处理方法,由垂直搜索中检索服务的提供方执行,所述方法包括:
获取垂直搜索中新增文档所对应的文档信息和指定域名;
通过所述文档信息和指定域名得到附加域名信息的分词序列;
通过所述附加域名信息的分词序列构建所述新增文档的倒排索引。
一种垂直搜索中按域检索装置,包括:
请求处理模块,用于接收垂直搜索中发起的检索请求,提取检索请求中的检索串和指定域名;
转换模块,用于转换所述检索串,以根据所述指定域名为所述检索串附加域名信息;
匹配模块,用于根据所述附加域名信息的检索串匹配得到对应的倒排索引;
结果返回模块,用于通过所述匹配得到的倒排索引返回检索结果。
一种垂直搜索中新增文档处理装置,所述装置为垂直搜索中检索服务的提供方,包括:
新增获取模块,用于获取垂直搜索中新增文档所对应的文档信息和指定域名;
分词序列生成模块,用于通过所述文档信息和指定域名得到附加域名信息的分词序列;
索引构建模块,用于通过所述附加域名信息的分词序列构建所述新增文档的倒排索引。
由上述技术方案可知,垂直搜索中在接收到发起的任一检索请求,都将提取检索请求中的检索串和指定域名,转换此检索串,以在此检索串中根据指定域名附加域名信息,在完成检索串的处理之后,使用附加域名信息的检索串进行匹配得到倒排索引,由此可知,该倒排索引是与附加域名信息的检索串相对应的,且用于索引到对应的文档,进而响应检索请求返回检索结果,在此垂直搜索的按域检索实现中,并不需要针对域建立特殊的索引,而只是在原有的全量索引中附加域名信息即可,因此能够简化按域检索的实现和维护,极大地降低了运营维护成本。
附图说明
图1是本发明实施例提供的一种服务器的结构示意图;
图2是一个实施例中垂直搜索中按域检索方法的流程图;
图3是图2中转换检索串,以根据指定域名为检索串附加域名信息的方法流程图;
图4是图2中通过匹配得到的倒排索引返回检索结果的方法流程图;
图5是另一个实施例中垂直搜索中按域检索方法的流程图;
图6是图5中通过文档信息和指定域名得到附加域名信息的分词序列;
图7是图6中在新增文档对应的分词结果中根据指定域名对相关分词附加域名信息,以得到相关分词附加了域名信息的分词序列的方法流程图;
图8是一个实施例中垂直搜索中按域检索装置的结构示意图;
图9是图8中转换模块的结构示意图;
图10是图8中结果返回模块的结构示意图;
图11是另一个实施例中垂直搜索中按域检索装置的结构示意图;
图12是图11中分词序列生成模块的结构示意图;
图13是图12中域建立单元的结构示意图。
具体实施方式
体现本发明特征与优点的典型实施方式将在以下的说明中详细叙述。应理解的是本发明能够在不同的实施方式上具有各种的变化,其皆不脱离本发明的范围,且其中的说明及图示在本质上是当作说明之用,而非用以限制本发明。
如前所述的,为实现垂直搜索中按域检索的运营,所有文档均建立了多个索引,即文档所包含的词中,每一词和文档标识均建立了映射关系,以构建该词与文档之间的索引,因此任一文档均有多个索引;并且在此基础上还将建立这些索引与各个域字段之间的映射,以针对域建立特殊索引,实现指定域的检索。
此过程中带来了庞大的索引量,无论是具体实现过程还是后续的运营维护都特别复杂,运营维护成本非常高。
因此,为降低运营维护成本,简化垂直搜索中按域检索的实现,特提出了一种垂直搜索中按域检索的方法。该垂直搜索中按域检索的方法由计算机程序实现,与之相对应的,所构建的垂直搜索中按域检索装置则被存储于服务器中,以在该服务器中运行,进而提供垂直搜索中的按域检索服务。
图1示出了本发明实施例中提供的一种服务器的结构。该服务器100可因配置或性能不同而产生较大差异,可以包括一个或一个以上中央处理器(centralprocessingunits,CPU)110(例如,一个或一个以上处理器)和存储器120,一个或一个以上存储应用程序131或数据133的存储介质130(例如一个或一个以上海量存储设备)。其中,存储器120和存储介质130可以是短暂存储或持久存储。存储在存储介质130的程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器110可以设置为与存储介质130通信,在服务器100上执行存储介质130中的一系列指令操作。服务器100还可以包括一个或一个以上的电源150,一个或一个以上有线或无线网络接口170,一个或一个以上输入输出接口180,和/或,一个或一个以上操作系统135,例如WindowsServerTM,MacOSXTM,UnixTM,LinuxTM,FreeBSDTM等等。下述实施例中所述的由服务器执行的步骤可以基于该图1所示的服务器结构。
如上面所详细描述的,适用本发明的服务器100将对通过程序指令的形式对文件的检索请求请求进行响应,以实现垂直搜索中的按域检索。
此外,通过硬件电路或者硬件电路结合软件指令也能同样实现本发明,因此,实现本发明并不限于任何特定硬件电路、软件以及两者的组合。
在一个实施例中,具体的,该垂直搜索中按域检索方法如图2所示,包括:
步骤210,垂直搜索中接收得到发起的检索请求,提取检索请求中的检索串和指定域名。
本实施例中,按域检索的发起和响应均是在垂直搜索基础上,基于垂直搜索的数据而实现的。所接收到的检索请求是任一接入该垂直搜索平台的应用通过触发按域检索行为而发起的,用以搭建了该垂直搜索平台,且提供按域检索服务的服务器则在接收到这一检索请求时,首先由此检索请求提取检索串和指定域名。
其中,该检索串即为用户在该垂直搜索平台提提供的界面中触发按域检索行为所输入的内容,而指定域名也是与用户在客户端触发按域检索行为所指定的域相对应的。
步骤230,转换检索串,以根据指定域名为检索串附加域名信息。
域名信息是与指定域相对应的,域名信息至少包括了指定域所对应的域名,在优选的实施例中,域名信息还包括了域标识。
该域名用于指示当前进行检索所指定的域,也就是说,对检索串所进行检索是在该指定域对应的文档中进行的。域标识附加在某一词上则是为了避免其与未指定域的同一词之间的冲突。
例如,对于“中山”一词,附加了域标识和未附加域标识将各自有其不同的检索方式,对于附加了域标识的词而言,其将必然是指定在一域中进行检索的,而未附加发的词,则是对所有数据进行检索。
通过对检索串附加域名信息,使得服务器在读取该检索串执行检索操作时得以快速精准地获知当前所采用的检索方式以及指定的内容,进而得到与用户意图相符的检索结果。
步骤250,根据附加域名信息的检索串匹配得到对应的倒排索引。
通过对所有构建的索引进行匹配的方式得到与附加了域名信息的检索串相对应的倒排索引,换而言之,该附加域名信息的检索串是与得到的倒排索引相匹配的,并且倒排索引中指定的域与检索串相同,由此可知,得到的倒排索引中也附加了域名信息。
垂直搜索中,对于按域检索的实现,服务器存储了大量数据,该数据是以文档为最小单位存在的,按域检索过程实质上是根据文档所对应的域字段得到指定域所对应的所有文档,进而在这些文档中完成检索的过程。
例如,在对视频所进行的垂直搜索中,某一电影便是以文档的形式存在的;而对于音乐的垂直搜索中,一歌曲文件也是以文档的形式存储的。
对于任一文档而言,该文档用以实现垂直搜索中按域检索的倒排索引除了包括文档中词所对应的倒排索引之外,还包括了附加了域名信息的相关词所对应的倒排索引。
步骤270,通过匹配得到的倒排索引返回检索结果。
根据匹配得到的倒排索引便可以索引到对应的文档,由索引得到的文档即可生成检索结果,并向发起检索请求的应用返回该检索结果。
如上所述的按域检索,通过在检索串和倒排索引中附加域名信息而实现了按域检索的简化,进而使得构建的索引中不需要为文档的多个索引与指定域配置构建相应的索引,索引量大为减少,由此所对应的索引维护和存储成本也得到大大降低。
对于用户层面,由于是在接收检索请求之后进行的域名信息附加,因此垂直搜索中按域检索的优化将不会对客户端造成任何影响,进而保证了按域检索的顺畅运营。
如上所述的垂直搜索中的按域检索过程是在线执行的,也就是说,接收到发起的检索请求之后便触发响应,以执行如上所述的步骤。
进一步的,在本实施例中,如图3所示,该步骤230包括:
步骤231,切分检索串得到分词结果。
对检索串进行分词后相应的分词结果,该分词结果可以是检索串本身,即检索串本身就是一个单一的词;也可以是检索串中包含的若干个分词。例如,对于检索串“孙中山”,可切分得到“孙”和“中山”两个分词。
步骤233,根据指定域名在分词结果中附加域名信息,以得到附加域名信息的检索串。
如前所述的,域名信息至少包括了指定域所对应的域名,因此,将在分词结果中添加指定域所对应的域名。例如,对于“孙”和“中山”两个分词所构成的分词结果,指定的域为人物信息,即搜索名为孙中山的人物,因此,将对这两个分词加上人物这一域名。
而进一步的,该域名信息还包括了域标识,通过域标识对分词结果中相关的分词进行标识,以在检索时针对性的在指定域中对此相关的分词进行匹配,进而提高检索的精准性。
如若将域名取为“IN”(index_name的缩写),域名标识为“\0x3”,附加了域名信息的分词结果则是由“IN:孙\0x3”和“IN:中山\0x3”组成,以构成本次检索中附加域名信息的检索串。
通过这一检索串的处理,使得该检索串与服务器中构建的索引相适配,进而便于完成后续的索引匹配过程。
进一步的,在本实施例中,该步骤250的具体过程为:匹配附加域名信息的检索串,以匹配得到附加了相同域名信息的倒排索引。
在处理得到可用于进行索引匹配的检索串之后,将进行服务器中文档的索引匹配过程。具体的,服务器中存储了大量的倒排索引,任一词以及该词所在的文档之间均有对应的倒排索引,将附加域名信息的检索串逐一与服务器中存储的倒排索引相匹配,以得到匹配的倒排索引,该倒排索引附加了与检索串相一致的域名信息。
倒排索引中记录了文档中词与文档之间的映射关系,因此,可索引到相应的文档,进而生成相应的检索结果。
进一步的,在本实施例中,该步骤270如图4所示,包括如下步骤:
步骤271,由倒排索引中的映射关系得到相关文档。
倒排索引包含了文档中词与所在文档的映射关系,其中,在此倒排索引中文档是以文档标识或者文档编码的数据形式存在的。例如,由“IN:孙\0x3”->文档001这一匹配得到的倒排索引中的映射关系即可得到相关文档,即编码为001的文档便是当前检索得到的。
步骤273,提取相关文档中的内容,以得到指定域名内与检索串相匹配的检索结果,并返回。
在另一个实施例中,如图5所示,如上所述的方法还包括:
步骤310,获取垂直搜索中新增文档所对应的文档信息和指定域名。
本实施例用以实现垂直搜索中按域检索的数据新增。具体的,由于数据是以文档为单位的,因此,所涉及的数据新增实质为文档的新增过程。
也就是说,在垂直搜索的按域检索中,除了可获取得到检索服务之外,还可通过服务器所提供的平台,即开放的垂直搜索平台上传文档,以对提供检索服务的数据新增文档。
接入该垂直搜索平台的应用开发者在提供的界面中进行文档信息的输入和相关域字段的指定之后,向后台的服务器上传并存储该文档信息和指定域名,进而后台的服务器即可获取到垂直搜索中新增文档所对应的文档信息和指定域名,该文档信息包括了文档标识以及进行文档的输入所对应的具体内容。
步骤330,通过文档信息和指定域名得到附加域名信息的分词序列。
文档信息中包含了若干个词,需要切分该文档信息以便于通过文档信息中包含的词构建这一新增文档所对应的索引。
具体的,在切分文档信息所得到的分词序列中,将获取指定域名的相关分词,通过为相关分词附加域名信息而得到附加了域名信息的分词序列,其中,指定域名的相关分词是指新增文档中,与指定域名相关,且在新增文档中起关键性作用的词。
例如,对人物信息文档,其所涉及的数据结构包括“人名”、“出生地”和“出生时间”等字段,数据结构非常复杂,其指定域名为人物信息,因此,相关分词则必然为“人名”所对应的字段。
进一步的,如图6所示,该步骤330包括:
步骤331,切分文档信息得到新增文档对应的分词结果。
通过调用一定的分词算法来进行文档信息切分的,由此过程得到了新增文档所对应的分词结果,该分词结果包括了若干个分词,该分词是与文档的数据结构所包含的字段相对应的。
需要说明的是,与如上所述的文档相类似的,这里所指的新增文档是以新增的文档标识或者新增的文档编号的数据形式存在的,以用于在众多的数据中进行标识。
步骤333,在新增文档对应的分词结果中根据指定域名对相关分词附加域名信息,以得到相关分词附加了域名信息的分词序列。
在分词结果根据指定域名定位相关分词,并针对所得到的相关分词附加域名信息。其中,该域名信息的附加可在相关分词上直接进行,但在优选的实施例中,将通过新增相关分词的方式在新增的相关分词上附加域名信息,以兼顾全量索引和为指定域构建的索引的实现,进而有利于后续检索的顺畅性和可靠性。
具体的,该步骤333如图7所示,包括:
步骤3331,根据指定域名在新增文档对应的分词结果中得到相关分词。
步骤3333,在新增文档对应的分词结果中新增相关分词,并对新增的相关分词附加域名信息,以得到相关分词附加了域名信息的分词序列。
新增文档对应的分词结果中进行相关分词的新增,并对新增的相关分词附加域名信息,进而得到由若干个分词以及附加了域名信息的相关词所形成的分词序列。
倒如,人名为“孙中山”人物信息的文档信息如下:
{“文档ID”:“001”,“人名”:“孙中山”,“出生地”:“广东香山“,”出生时间“:”1866“};
则相对应所得到的分词序列为“孙/中山/IN:孙\0x3/IN:中山\0x3/广东/香山”,其中,“IN:孙\0x3”和“IN:中山\0x3”即为附加了域名信息的相关分词。
通过在分词结果中附加域名信息的过程,实现了分词结果中针对相关分词建立域的过程中,由此将便于进行精准的按域检索。
步骤350,通过附加域名信息的分词序列构建新增文档的倒排索引。
倒排索引用以实现检索串到文档的索引,因此,其包含了词与文档之间的映射关系,通过倒排索引,将便于搜索引擎根据用户输入的检索串进行检索,并有利于提高检索效率。
因此,将由分词序列构建新增文档的顺排索引,再反转该顺排索引以得到新增文档的倒排索引。
其中,该分词序列包括了新增文档的文档信息中包含的若干个分词,以及附加了域名信息的相关分词。逐一构建新增文档与分词序列中包含的分词以及指定域名的相关分词之间的映射关系,以得到该新增文档所对应的多个顺排索引,进而形成了新增文档的顺排索引集合。
例如,对于人名为“孙中山”的人物信息,其所对应的顺排索引集合为:文档001->“孙/中山/IN:孙\0x3/IN:中山\0x3/广东/香山”;
又例如,对于一人名为“张三“的人物信息的文档信息如下:
{“文档ID”:“002”,“人名”:“张三”,“出生地”:“广东中山”,“出生时间”:“1970”};
其所对应的顺排索引集合便是通过这一文档信息中附加了域名信息的分词序列得到的,即文档002->“张三/IN:张三\0x3/广东/中山”。
在构建了新增文档的顺排索引之后,反转该顺排索引即可得到新增文档的倒排索引,即对于文档001和文档002,反转后得到的倒排索引如下:
“孙”->文档001
“中山”->文档001,文档002
“广东”->文档001,文档002
“香山”->文档001
“张山”->文档002
“IN:孙\0x3”->文档001
“IN:中山\0x3”->文档001
“IN:张三\0x3”->文档002
将此新增文档,即文档001和文档002所构建的倒排索引进行存储,以供后续检索。
通过如上所述的实现过程,将使得垂直搜索中按域检索的实现不再需要构建和维护众多的索引,即,不需要建立域名到文档的各索引之间的映射关系,而是在原有的全量索引基础上加上一定的域名信息,索引量大大减少,也减少了运营维护成本,且易于借助原有的数据积累实现。
例如,当用户只需要在人名中检索“中山”时,只需要指定域,并输入相应的检索串即可,后台的服务器将指定域和检索串处理为“IN:中山\0x3”的形式,再根据“IN:中山\0x3”去存储的倒排索引中取相应的检索结果即可,由此检索结果将得到文档001中包含的内容,此检索结果即为用户相得到的结果,所实现的垂直搜索中的按域检索与用户意图相符。
依此类推,垂直搜索的视频搜索业务中,如果用户希望检索电影名为“2012”的电影,而不想检索年份为“2012”的电影时,只是需要在发起检索时指定域即可得到所希望的检索结果,而将年份信息为“2012”的电影排除在外,更加准确的返回用户所需要的检索结果。
通过如上所述的垂直搜索中按域检索方法的实现可知,其包括了检索和新增文档两大部分,其中,检索部分将是接收到发起的检索请求后在线处理的,而新增文档部分则是离线处理的,由此将使得执行该垂直搜索中按域检索方法的主体,如服务器得以具备最佳性能。
与之相对应的,在一个实施例中,还提供了一种垂直搜索中新增文档处理方法,由垂直搜索中检索服务的提供方执行,此方法包括如下步骤:
获取垂直搜索中新增文档所对应的文档信息和指定域名;
通过文档信息和指定域名得到附加域名信息的分词序列;
通过附加域名信息的分词序列构建新增文档的倒排索引。
通过本实施例所提供的垂直搜索中新增文档处理方法,对于任一需要获取搜索功能的应用而言,其接入为实现如上所述的步骤而搭建的平台即可根据需要上传可供用户搜索的文档,即新增文档;
而通过该应用接入前述垂直搜索中为实现按域检索而搭建的平台中,用户便可检索到需要的文档。
通过此方式,将使得应用的接入更贴近应用开发者的开发意图,在为众多应用提供开发平台的同时,也能够贴近每一应用开发者,进而使得接入的应用与平台紧密配合。
在一个实施例中,还相应地提供了一种垂直搜索中按域检索装置,如图8所示,包括请求处理模块410、转换模块430、匹配模块450和结果返回模块470,其中:
请求处理模块410,用于接收垂直搜索中发起的检索请求,提取检索请求中的检索串和指定域名。
转换模块430,用于转换检索串,以根据指定域名为检索串附加域名信息。
匹配模块450,用于根据附加域名信息的检索串匹配得到对应的倒排索引。
结果返回模块470,用于通过匹配得到的倒排索引返回检索结果。
进一步的,在本实施例中,如图9所示,转换模块430包括检索串切分单元431和分词结果处理单元433,其中:
检索串切分单元431,用于切分检索串得到分词结果。
分词结果处理单元433,用于根据指定域名在分词结果中附加域名信息,以得到附加域名信息的检索串。
在一个实施例中,匹配模块450进一步用于匹配附加域名信息的检索串,以匹配得到附加了相同域名信息的倒排索引。
在一个实施例中,如图10所示,如上所述的结果返回模块470包括映射单元471和内容提取单元473,其中:
映射单元471,用于由倒排索引中的映射关系得到相关文档。
内容提取单元473,用于提取相关文档中的内容,以得到指定域名内与检索串相匹配的检索结果,并返回。
在另一个实施例中,如图11所示,如上所述的装置包括新增获取模块510、分词序列生成模块530和索引构建模块550,其中:
新增获取模块510,用于获取垂直搜索中新增文档所对应的文档信息和指定域名。
分词序列生成模块530,用于通过文档信息和指定域名得到附加域名信息的分词序列。
索引构建模块550,用于通过附加域名信息的分词序列构建新增文档的倒排索引。
进一步的,在本实施例中,如图12所示,分词序列生成模块530包括文档切分单元531和域建立单元533,其中:
文档切分单元531,用于切分文档信息得到新增文档对应的分词结果。
域建立单元533,用于在新增文档对应的分词结果中根据指定域名对相关分词附加域名信息,以得到相关分词附加了域名信息的分词序列。
进一步的,在本实施例中,如图13所示,域建立单元533包括分词确定子单元5331和相关分词标识单元5333,其中:
分词确定子单元5331,用于根据指定域名在新增文档对应的分词结果中得到相关分词;
相关分词标识单元5333,用于在新增文档对应的分词结果中新增相关分词,并对新增的相关分词附加域名信息,以得到相关分词附加了域名信息的分词序列。
另外,在另一个实施例中,还相应地提供了一种垂直搜索中新增文档处理装置,该装置为垂直搜索中检索服务的提供方,该装置包括新增获取模块、分词序列生成模块和索引构建模块,其中:
新增获取模块,用于获取垂直搜索中新增文档所对应的文档信息和指定域名;
分词序列生成模块,用于通过文档信息和指定域名得到附加域名信息的分词序列;
索引构建模块,用于通过附加域名信息的分词序列构建新增文档的倒排索引。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
虽然已参照几个典型实施方式描述了本发明,但应当理解,所用的术语是说明和示例性、而非限制性的术语。由于本发明能够以多种形式具体实施而不脱离发明的精神或实质,所以应当理解,上述实施方式不限于任何前述的细节,而应在随附权利要求所限定的精神和范围内广泛地解释,因此落入权利要求或其等效范围内的全部变化和改型都应为随附权利要求所涵盖。
Claims (16)
1.一种垂直搜索中按域检索方法,其特征在于,包括:
垂直搜索中接收得到发起的检索请求,提取所述检索请求中的检索串和指定域名;
转换所述检索串,以根据所述指定域名为所述检索串附加域名信息;
根据所述附加域名信息的检索串匹配得到对应的倒排索引;
通过所述匹配得到的倒排索引返回检索结果。
2.根据权利要求1所述的方法,其特征在于,所述转换所述检索串,以根据所述指定域名为所述检索串附加域名信息的步骤包括:
切分所述检索串得到分词结果;
根据所述指定域名在所述分词结果中附加域名信息,以得到附加域名信息的检索串。
3.根据权利要求1所述的方法,其特征在于,所述根据所述附加域名信息的检索串匹配得到对应的倒排索引的步骤包括:
匹配所述附加域名信息的检索串,以匹配得到附加了相同域名信息的倒排索引。
4.根据权利要求1所述的方法,其特征在于,所述通过所述匹配得到的倒排索引返回检索结果的步骤包括:
由所述倒排索引中的映射关系得到相关文档;
提取所述相关文档中的内容,以得到所述指定域名内与所述检索串相匹配的检索结果,并返回。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取垂直搜索中新增文档所对应的文档信息和指定域名;
通过所述文档信息和指定域名得到附加域名信息的分词序列;
通过所述附加域名信息的分词序列构建所述新增文档的倒排索引。
6.根据权利要求5所述的方法,其特征在于,所述通过所述文档信息和指定域名得到附加域名信息的分词序列的步骤包括:
切分所述文档信息得到所述新增文档对应的分词结果;
在所述新增文档对应的分词结果中根据所述指定域名对相关分词附加域名信息,以得到相关分词附加了域名信息的分词序列。
7.根据权利要求6所述的方法,其特征在于,所述在所述新增文档对应的分词结果中根据所述指定域名对相关分词附加域名信息,以得到相关分词附加了域名信息的分词序列的步骤包括:
根据所述指定域名在所述新增文档对应的分词结果中得到相关分词;
在所述新增文档对应的分词结果中新增所述相关分词,并对所述新增的相关分词附加域名信息,以得到相关分词附加了域名信息的分词序列。
8.一种垂直搜索中新增文档处理方法,其特征在于,由垂直搜索中检索服务的提供方执行,所述方法包括:
获取垂直搜索中新增文档所对应的文档信息和指定域名;
通过所述文档信息和指定域名得到附加域名信息的分词序列;
通过所述附加域名信息的分词序列构建所述新增文档的倒排索引。
9.一种垂直搜索中按域检索装置,其特征在于,包括:
请求处理模块,用于接收垂直搜索中发起的检索请求,提取检索请求中的检索串和指定域名;
转换模块,用于转换所述检索串,以根据所述指定域名为所述检索串附加域名信息;
匹配模块,用于根据所述附加域名信息的检索串匹配得到对应的倒排索引;
结果返回模块,用于通过所述匹配得到的倒排索引返回检索结果。
10.根据权利要求9所述的装置,其特征在于,所述转换模块包括:
检索串切分单元,用于切分所述检索串得到分词结果;
分词结果处理单元,用于根据所述指定域名在所述分词结果中附加域名信息,以得到附加域名信息的检索串。
11.根据权利要求9所述的装置,其特征在于,所述匹配模块进一步用于匹配附加域名信息的检索串,以匹配得到附加了相同域名信息的倒排索引。
12.根据权利要求9所述的装置,其特征在于,所述结果返回模块包括:
映射单元,用于由所述倒排索引中的映射关系得到相关文档;
内容提取单元,用于提取所述相关文档中的内容,以得到所述指定域名内与所述检索串相匹配的检索结果,并返回。
13.根据权利要求9所述的装置,其特征在于,所述装置还包括:
新增获取模块,用于获取垂直搜索中新增文档所对应的文档信息和指定域名;
分词序列生成模块,用于通过所述文档信息和指定域名得到附加域名信息的分词序列;
索引构建模块,用于通过所述附加域名信息的分词序列构建所述新增文档的倒排索引。
14.根据权利要求13所述的装置,其特征在于,所述分词序列生成模块包括:
文档切分单元,用于切分所述文档信息得到所述新增文档对应的分词结果;
域建立单元,用于在所述新增文档对应的分词结果中根据所述指定域名对相关分词附加域名信息,以得到相关分词附加了域名信息的分词序列。
15.根据权利要求14所述的装置,其特征在于,所述域建立单元包括:
分词确定子单元,用于根据所述指定域名在所述新增文档对应的分词结果中得到相关分词;
相关分词标识单元,用于在所述新增文档对应的分词结果中新增所述相关分词,并对所述新增的相关分词附加域名信息,以得到相关分词附加了域名信息的分词序列。
16.一种垂直搜索中新增文档处理装置,其特征在于,所述装置为垂直搜索中检索服务的提供方,包括:
新增获取模块,用于获取垂直搜索中新增文档所对应的文档信息和指定域名;
分词序列生成模块,用于通过所述文档信息和指定域名得到附加域名信息的分词序列;
索引构建模块,用于通过所述附加域名信息的分词序列构建所述新增文档的倒排索引。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510890764.7A CN105488197B (zh) | 2015-12-07 | 2015-12-07 | 垂直搜索中按域检索方法、新增文档处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510890764.7A CN105488197B (zh) | 2015-12-07 | 2015-12-07 | 垂直搜索中按域检索方法、新增文档处理方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105488197A true CN105488197A (zh) | 2016-04-13 |
CN105488197B CN105488197B (zh) | 2020-10-13 |
Family
ID=55675171
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510890764.7A Active CN105488197B (zh) | 2015-12-07 | 2015-12-07 | 垂直搜索中按域检索方法、新增文档处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105488197B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107391535A (zh) * | 2017-04-20 | 2017-11-24 | 阿里巴巴集团控股有限公司 | 在文档应用中搜索文档的方法及装置 |
CN108763430A (zh) * | 2018-05-24 | 2018-11-06 | 杭州有赞科技有限公司 | 配置化实现垂直业务定制化检索的方法、装置及系统 |
CN110362650A (zh) * | 2018-04-09 | 2019-10-22 | 深圳企业云科技股份有限公司 | 精准分词实现文件全文搜索的检索方法 |
CN112835860A (zh) * | 2021-02-19 | 2021-05-25 | 腾讯科技(深圳)有限公司 | 共享文档的处理方法、装置、设备及计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101467147A (zh) * | 2006-04-13 | 2009-06-24 | 塞尔奇米公司 | 在竖直区域内执行搜索的系统和方法 |
CN102063446A (zh) * | 2009-11-13 | 2011-05-18 | 中国移动通信集团四川有限公司 | 一种建立倒排索引的方法及倒排索引装置 |
CN102132272A (zh) * | 2008-08-27 | 2011-07-20 | 雅虎公司 | 利用垂直建议辅助搜索请求的系统和方法 |
US20150154292A1 (en) * | 2013-12-03 | 2015-06-04 | Yahoo! Inc. | Recirculating on-line traffic, such as within a special purpose search engine |
-
2015
- 2015-12-07 CN CN201510890764.7A patent/CN105488197B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101467147A (zh) * | 2006-04-13 | 2009-06-24 | 塞尔奇米公司 | 在竖直区域内执行搜索的系统和方法 |
CN102132272A (zh) * | 2008-08-27 | 2011-07-20 | 雅虎公司 | 利用垂直建议辅助搜索请求的系统和方法 |
CN102063446A (zh) * | 2009-11-13 | 2011-05-18 | 中国移动通信集团四川有限公司 | 一种建立倒排索引的方法及倒排索引装置 |
US20150154292A1 (en) * | 2013-12-03 | 2015-06-04 | Yahoo! Inc. | Recirculating on-line traffic, such as within a special purpose search engine |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107391535A (zh) * | 2017-04-20 | 2017-11-24 | 阿里巴巴集团控股有限公司 | 在文档应用中搜索文档的方法及装置 |
CN110362650A (zh) * | 2018-04-09 | 2019-10-22 | 深圳企业云科技股份有限公司 | 精准分词实现文件全文搜索的检索方法 |
CN108763430A (zh) * | 2018-05-24 | 2018-11-06 | 杭州有赞科技有限公司 | 配置化实现垂直业务定制化检索的方法、装置及系统 |
CN108763430B (zh) * | 2018-05-24 | 2021-01-12 | 杭州有赞科技有限公司 | 配置化实现垂直业务定制化检索的方法、装置及系统 |
CN112835860A (zh) * | 2021-02-19 | 2021-05-25 | 腾讯科技(深圳)有限公司 | 共享文档的处理方法、装置、设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN105488197B (zh) | 2020-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107038207B (zh) | 一种数据查询方法、数据处理方法及装置 | |
US11151179B2 (en) | Method, apparatus and electronic device for determining knowledge sample data set | |
US11394799B2 (en) | Methods, systems, apparatuses, and devices for facilitating for generation of an interactive story based on non-interactive data | |
CN110019004B (zh) | 一种数据处理方法、装置及系统 | |
US9183197B2 (en) | Language processing resources for automated mobile language translation | |
US20060288036A1 (en) | Device specific content indexing for optimized device operation | |
CN105488197A (zh) | 垂直搜索中按域检索方法、新增文档处理方法和装置 | |
CN110119473A (zh) | 一种目标文件知识图谱的构建方法及装置 | |
US11568018B2 (en) | Utilizing machine-learning models to generate identifier embeddings and determine digital connections between digital content items | |
CN106104514A (zh) | 对利用文件存储系统实施的对象存储库中的对象的加速访问 | |
CN110413738A (zh) | 一种信息处理方法、装置、服务器及存储介质 | |
CN103677866A (zh) | 应用程序扩展工具推送方法及系统 | |
CN107391101A (zh) | 一种信息处理方法及装置 | |
RU2711104C2 (ru) | Способ и компьютерное устройство для определения намерения, связанного с запросом для создания зависящего от намерения ответа | |
CN105354318A (zh) | 一种文件查找方法及装置 | |
CN106570153A (zh) | 一种海量url的数据提取方法及系统 | |
Lisowska | Metadata for the open data portals | |
KR101743731B1 (ko) | 분산된 데이터를 통합하여 생성한 온톨로지를 기반으로 쿼리를 처리하는 방법 및 장치 | |
JP2014229275A (ja) | 質問応答装置、及び質問応答方法 | |
CN106570152A (zh) | 一种手机号码的海量提取方法及系统 | |
CN112230929B (zh) | 一种cim模型的数据解析方法、装置及存储介质 | |
US20220100785A1 (en) | Entity search system | |
US11170010B2 (en) | Methods and systems for iterative alias extraction | |
CN110647568A (zh) | 一种图数据库数据转化为编程语言数据方法及装置 | |
US10380090B1 (en) | Nested object serialization and deserialization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |