CN103530298A - 一种信息搜索方法和装置 - Google Patents

一种信息搜索方法和装置 Download PDF

Info

Publication number
CN103530298A
CN103530298A CN201210232960.1A CN201210232960A CN103530298A CN 103530298 A CN103530298 A CN 103530298A CN 201210232960 A CN201210232960 A CN 201210232960A CN 103530298 A CN103530298 A CN 103530298A
Authority
CN
China
Prior art keywords
dictionary
search results
neologisms
word segmentation
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210232960.1A
Other languages
English (en)
Inventor
谢朴锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Shenzhen Shiji Guangsu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Shiji Guangsu Information Technology Co Ltd filed Critical Shenzhen Shiji Guangsu Information Technology Co Ltd
Priority to CN201210232960.1A priority Critical patent/CN103530298A/zh
Publication of CN103530298A publication Critical patent/CN103530298A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种信息搜索方法和装置。该方法包括:获取查询词,基于两个以上的词典分别对所述查询词进行分词,得到每个词典对应的分词结果,其中,所述两个以上的词典包括基本词典和新词词典,当需要收录所述基本词典中当前未收录的词组时,将所述当前未收录的词组存储在所述新词词典中;根据每个词典对应的分词结果分别获取搜索结果信息,得到每个词典对应的搜索结果信息,从各个词典对应的搜索结果信息中确定最终的搜索结果。应用本发明使得信息搜索结果更加全面。

Description

一种信息搜索方法和装置
技术领域
本申请涉及信息搜索技术领域,尤其涉及一种信息搜索方法和装置。
背景技术
在当前信息化的社会中,信息搜索得到了广泛应用。目前的信息搜索过程一般包括:接收查询词,对查询词进行分词,根据分词结果查询倒排数据库,从倒排数据库中获取搜索结果,返回搜索结果。
其中,分词是指,根据词典中的词组,将分词目标(例如查询词)划分为词典中的一个或多个词组;倒排数据库用于存储待搜索文档的索引信息,具体地,倒排数据库以词典中的词组作为索引,每一词组对应了以该词组作为索引的所有待搜索文档的信息。
随着当前信息更新速度的加快,会不断涌现出新词,即未在词典中收录的词,这些新词常常可以由词典中已经收录的词组(简称旧词)组成,但是却拥有与组成该新词的各个旧词迥然不同的含义,比如“屌丝”由“屌”和“丝”组成,但是“屌丝”的含义却与“屌”和“丝”的含义完全不同。
由于新词的出现,将导致分词所基于的词典的内容也将发生变化,由于分词是以词典中收录的词组作为最小单元而进行的,因此,随着词典内容的变化,即在词典收录新词以前和收录新词之后,将导致针对同一分词目标的分词结果发生变化。
具体地,在进行分词所基于的词典收录新词之前,搜索引擎将按照词典中已收录的词组对该新词进行分词,得到组成该新词的各个词组,并根据组成该新词的各个词组从倒排数据库中获取搜索结果,例如在“屌丝”被收录到词典之前,对该“屌丝”的分词结果为“屌”和“丝”,则根据“屌”和“丝”从倒排数据库中获取搜索结果;在进行分词所基于的词典收录所述新词之后,搜索引擎将按照所述新词从倒排数据库中获取搜索结果。其中,倒排数据库中的文档索引信息,也会在词典中收录的词组更新以后,根据更新的词典中收录的词组重新对待搜索文档建立索引。
可见,目前的信息搜索方法中,由于词典的内容会随着新词的涌现和收录而不断发生变化,因此,导致搜索结果要么仅能查询到与组成查询词的各个词组相关的文档,要么仅能查询到与查询词本身相关的文档,信息搜索的结果不够全面。
发明内容
本申请提供了一种信息搜索方法和装置,从而使得信息搜索结果更加全面。
本申请的技术方案具体是这样实现的:
一种信息搜索方法,该方法包括:
获取查询词,基于两个以上的词典分别对所述查询词进行分词,得到每个词典对应的分词结果,其中,所述两个以上的词典包括基本词典和新词词典,所述新词词典用于存储所述基本词典中未收录的词组;
根据每个词典对应的分词结果分别获取搜索结果信息,得到每个词典对应的搜索结果信息,从各个词典对应的搜索结果信息中确定最终的搜索结果。
一种信息搜索装置,该装置包括第一获取模块、分词模块、第二获取模块和确定模块;
所述第一获取模块,用于获取查询词;
所述分词模块,用于基于两个以上的词典分别对所述查询词进行分词,得到每个词典对应的分词结果,其中,所述两个以上的词典包括基本词典和新词词典,所述新词词典用于存储所述基本词典中未收录的词组;
所述第二获取模块,用于根据每个词典对应的分词结果分别获取搜索结果信息,得到每个词典对应的搜索结果信息;
所述确定模块,用于根据各个词典对应的搜索结果信息,确定最终的搜索结果。
由上述方案可见,本申请在接收到查询词以后,基于两个以上的词典分别对所述查询词进行分词,得到每个词典对应的分词结果,根据每个词典对应的分词结果分别获取每个词典对应的搜索结果信息以后,根据各个词典对应的搜索结果信息,确定最终的搜索结果,并且,其中所述的两个以上的词典包括基本词典和新词词典,所述新词词典用于存储所述基本词典中未收录的词组。可见,由于本申请中,基于基本词典和新词词典进行分词,由于对于新词等基本词典中未收录的词组,并非像现有技术那样直接更新词典中已有的词组,而是将新词等基本词典中未收录的词组另外存储在新词词典中,综合利用基本词典和新词词典对查询词进行分词,并根据分词结果获取搜索结果信息,进而确定最终的搜索结果,因此,能够解决现有技术中由于词典内容不断变化导致的问题,即解决搜索结果要么仅能查询到与组成查询词的各个词组相关的文档,要么仅能查询到与查询词本身相关的文档,搜索结果不够全面的问题,使得搜索结果更加全面,提高了信息搜索质量。
附图说明
图1是本发明提供的信息搜索方法流程图。
图2是本发明提供的信息搜索装置结构图。
具体实施方式
图1是本发明提供的信息搜索方法流程图。
如图1所示,该流程包括:
步骤101,获取查询词。
本步骤中,所述获取可以是主动获取方式,也可以是接收等被动获取方式。
步骤102,基于两个以上的词典分别对所述查询词进行分词,得到每个词典对应的分词结果,其中,所述两个以上的词典包括基本词典和新词词典,所述新词词典用于存储所述基本词典中未收录的词组。
其中,新词词典的建立方法包括:当需要收录所述基本词典中当前未收录的词组时,将所述当前未收录的词组存储在所述新词词典中,从而建立新词词典。新词词典中会收入例如网络上新创造的词语例如屌丝、高富帅,等。
步骤103,根据每个词典对应的分词结果分别获取搜索结果信息,得到每个词典对应的搜索结果信息。
步骤104,根据各个词典对应的搜索结果信息,确定最终的搜索结果。
本步骤中,从各个词典对应的搜索结果信息中确定最终的搜索结果,例如,可以将新词词典对应的全部搜索结果和基本词典对应的至少部分搜索结果确定为最终的搜索结果,或者,将新词词典对应的至少部分搜索结果确定为最终的搜索结果,或者,根据与查询词的相关性,从新词词典对应的搜索结果和基本词典对应的搜索结果中各选出至少部分确定为最终的搜索结果。
其中,从各个词典对应的搜索结果信息中确定最终的搜索结果具体可以包括:
判断新词词典对应的搜索结果条数信息是否达到预定阈值,如果是,从新词词典对应的搜索结果中确定最终的搜索结果,如果否,利用所述预定阈值减去新词词典对应的搜索结果个数,根据所得的差从基本词典对应的搜索结果中选出相应个数的搜索结果,将新词词典对应的搜索结果和从基本词典对应的搜索结果中选出的搜索结果确定为最终的搜索结果;或者,根据与查询词的相关性,从新词词典对应的搜索结果和基本词典对应的搜索结果中选出最终的搜索结果。
可见,由于图1所示方法是基于两个以上的词典进行分词,进而根据两个以上的词典的分词结果确定最终的搜索结果,且该两个以上的词典包括基本词典和新词词典,其中,所述新词词典用于存储所述基本词典中未收录的词组,因此,当接收的查询词是未收录在基本词典中的新词、且由已收录在词典中的两个以上的旧词组成时,采用图1所述方法既能查询到与组成查询词的各个词组相关的文档,也能查询到与查询词本身相关的文档,搜索结果更加全面,提高了信息搜索质量。
其中,在基于两个以上的词典分别对查询词进行分词时,可以针对不同的词典采用不同分词处理函数进行分词,具体地:
可以通过查询处理函数数据库获得各个词典的分词处理函数,调用各个词典的分词处理函数分别对所述查询词进行分词,其中,在所述处理函数数据库中存储有分词版本号和/或词典名称、与分词处理函数名称和分词处理函数地址之间的对应关系。
其中,在步骤103中所述的根据每个词典对应的分词结果分别获取搜索结果信息,可以是直接根据每个词典对应的分词结果从倒排数据库中获取搜索结果,则在步骤104中,可以直接根据步骤103从倒排数据库中获取的各个词典的搜索结果,确定出最终的搜索结果。
由于从倒排数据库中获取搜索结果需要一定的时间,为了提高信息搜索的速度,本申请人还提出,可以预先建立加速数据库,在该加速数据库中存储所述两个以上的词典中的每个词组对应的搜索结果条数信息。其中,在加速数据库中具体可以存储每个词组与该词组的标识(ID)和搜索结果条数(或称为命中文档数)之间的对应关系。
当存在加速数据库时,步骤103中根据每个词典对应的分词结果分别获取搜索结果信息具体可以包括:根据每个词典对应的分词结果包含的词组,从所述加速数据库中获取相应词组的搜索结果条数信息,根据获取的每个词组的搜索结果条数信息,确定每个词典对应的搜索结果条数信息。步骤104中根据各个词典对应的搜索结果信息,确定最终的搜索结果具体可以包括:判断新词词典对应的搜索结果条数信息是否达到预定阈值,如果是,根据新词词典的分词结果从倒排数据库中获取新词词典对应的搜索结果,从新词词典对应的搜索结果中确定最终的搜索结果,如果否,根据新词词典的分词结果从倒排数据库中获取新词词典对应的搜索结果、且根据基本词典的分词结果从倒排数据库中获取基本词典对应的搜索结果,从新词词典对应的搜索结果和基本词典对应的搜索结果中确定最终的搜索结果。
之所以优先从新词词典的搜索结果中确定最终的搜索结果,是因为本申请人经分析进一步注意到,当一查询词是未收录在基本词典中的新词、且可以由基本词典中的两个以上词组组成时,通常基于该查询词本身(即基于该新词、而非基于基本词典中组成该查询词的两个以上的词组)所得到的搜索结果,与基于基本词典中组成该查询词的两个以上的词组所得到的搜索结果相比,更符合信息搜索需求。因此,优先从新词词典的搜索结果中确定最终的搜索结果。
为了进一步提高信息搜索速度,所述加速数据库可以设置在信息搜索引擎所在设备的内存中。
其中的加速数据库并不是必须的,例如也可以先根据新词词典的分词结果从倒排数据库中搜索结果,在新词词典的搜索结果不能够满足信息搜索需求,例如新词词典的搜索结果个数小于预定阈值时,再根据基本词典的分词结果从倒排数据库中搜索结果,对新词词典的搜索结果进行补全,即利用所述预定阈值减去新词词典对应的搜索结果个数,根据所得的差从基本词典对应的搜索结果中选出相应个数的搜索结果,将新词词典对应的搜索结果和从基本词典对应的搜索结果中选出的搜索结果确定为最终的搜索结果;或者,根据与查询词的相关性,从新词词典对应的搜索结果和基本词典对应的搜索结果中选出最终的搜索结果。
根据本发明提供的上述方法,本发明还提供了相应的装置,具体请参见图2。
图2是本发明提供的信息搜索装置结构图。
如图2所示,该装置包括第一获取模块201、分词模块202、第二获取模块203和确定模块204。
第一获取模块201,用于获取查询词。
分词模块202,用于基于两个以上的词典分别对所述查询词进行分词,得到每个词典对应的分词结果,其中,所述两个以上的词典包括基本词典和新词词典,当需要收录所述基本词典中当前未收录的词组时,将所述当前未收录的词组存储在所述新词词典中。
第二获取模块203,用于根据每个词典对应的分词结果分别获取搜索结果信息,得到每个词典对应的搜索结果信息。
确定模块204,用于从各个词典对应的搜索结果信息中确定最终的搜索结果。
分词模块202,可以用于通过查询处理函数数据库获得各个词典的分词处理函数,调用各个词典的分词处理函数分别对所述查询词进行分词,其中,在所述处理函数数据库中存储有分词版本号和/或词典名称、与分词处理函数名称和分词处理函数地址之间的对应关系。
确定模块204,可以用于将新词词典对应的全部搜索结果和基本词典对应的至少部分搜索结果确定为最终的搜索结果,或者,将新词词典对应的至少部分搜索结果确定为最终的搜索结果,或者,根据与查询词的相关性,从新词词典对应的搜索结果和基本词典对应的搜索结果中各选出至少部分确定为最终的搜索结果。
其中,确定模块204,具体可以用于判断新词词典对应的搜索结果条数信息是否达到预定阈值,如果是,从新词词典对应的搜索结果中确定最终的搜索结果,如果否,利用所述预定阈值减去新词词典对应的搜索结果个数,根据所得的差从基本词典对应的搜索结果中选出相应个数的搜索结果,将新词词典对应的搜索结果和从基本词典对应的搜索结果中选出的搜索结果确定为最终的搜索结果;或者,根据与查询词的相关性,从新词词典对应的搜索结果和基本词典对应的搜索结果中选出最终的搜索结果。
该装置还可以包括加速数据库。所述加速数据库位于内存中。
所述加速数据库,用于存储所述两个以上的词典中的每个词组对应的搜索结果条数信息。
第二获取模块203,用于根据每个词典对应的分词结果包含的词组,从所述加速数据库中获取相应词组的搜索结果条数信息,根据获取的每个词组的搜索结果条数信息,确定每个词典对应的搜索结果条数信息;
确定模块204,用于判断新词词典对应的搜索结果条数信息是否达到预定阈值,如果是,根据新词词典的分词结果从倒排数据库中获取新词词典对应的搜索结果,将新词词典对应的至少部分搜索结果确定为最终的搜索结果,如果否,根据新词词典的分词结果从倒排数据库中获取新词词典对应的搜索结果、且根据基本词典的分词结果从倒排数据库中获取基本词典对应的搜索结果,将新词词典对应的全部搜索结果和基本词典对应的至少部分搜索结果确定为最终的搜索结果,或者,根据与查询词的相关性,从新词词典对应的搜索结果和基本词典对应的搜索结果中各选出至少部分确定为最终的搜索结果。
确定模块204,可以用于在新词词典对应的搜索结果条数信息未达到预定阈值时,利用所述预定阈值减去新词词典对应的搜索结果个数,根据所得的差从基本词典对应的搜索结果中选出相应个数的搜索结果,将新词词典对应的搜索结果和从基本词典对应的搜索结果中选出的搜索结果确定为最终的搜索结果,或者,根据与查询词的相关性,从新词词典对应的搜索结果和基本词典对应的搜索结果中选出最终的搜索结果。

Claims (10)

1.一种信息搜索方法,其特征在于,该方法包括:
获取查询词,基于两个以上的词典分别对所述查询词进行分词,得到每个词典对应的分词结果,其中,所述两个以上的词典包括基本词典和新词词典,所述新词词典用于存储所述基本词典中未收录的词组;
根据每个词典对应的分词结果分别获取搜索结果信息,得到每个词典对应的搜索结果信息,从各个词典对应的搜索结果信息中确定最终的搜索结果。
2.根据权利要求1所述的方法,其特征在于,基于两个以上的词典分别对所述查询词进行分词包括:
通过查询处理函数数据库获得各个词典的分词处理函数,调用各个词典的分词处理函数分别对所述查询词进行分词,其中,在所述处理函数数据库中存储有分词版本号和/或词典名称、与分词处理函数名称和分词处理函数地址之间的对应关系。
3.根据权利要求1所述的方法,其特征在于,从各个词典对应的搜索结果信息中确定最终的搜索结果包括:
将新词词典对应的全部搜索结果和基本词典对应的至少部分搜索结果确定为最终的搜索结果;
或者,将新词词典对应的至少部分搜索结果确定为最终的搜索结果;
或者,根据与查询词的相关性,从新词词典对应的搜索结果和基本词典对应的搜索结果中各选出至少部分确定为最终的搜索结果。
4.根据权利要求3所述的方法,其特征在于,确定的最终的搜索结果的总条数为一定值。
5.根据权利要求3所述的方法,其特征在于,该方法还包括:预先建立加速数据库,在该加速数据库中存储所述两个以上的词典中的每个词组对应的搜索结果条数信息;
所述根据每个词典对应的分词结果分别获取搜索结果信息,得到每个词典对应的搜索结果信息,从各个词典对应的搜索结果信息中确定最终的搜索结果包括:
根据每个词典对应的分词结果包含的词组,从所述加速数据库中获取相应词组的搜索结果条数信息,根据获取的每个词组的搜索结果条数信息,确定每个词典对应的搜索结果条数信息;
判断新词词典对应的搜索结果条数信息是否达到预定阈值,如果是,根据新词词典的分词结果从倒排数据库中获取新词词典对应的搜索结果,将新词词典对应的至少部分搜索结果确定为最终的搜索结果,如果否,根据新词词典的分词结果从倒排数据库中获取新词词典对应的搜索结果、且根据基本词典的分词结果从倒排数据库中获取基本词典对应的搜索结果,将新词词典对应的全部搜索结果和基本词典对应的至少部分搜索结果确定为最终的搜索结果,或者,根据与查询词的相关性,从新词词典对应的搜索结果和基本词典对应的搜索结果中各选出至少部分确定为最终的搜索结果。
6.一种信息搜索装置,其特征在于,该装置包括第一获取模块、分词模块、第二获取模块和确定模块;
所述第一获取模块,用于获取查询词;
所述分词模块,用于基于两个以上的词典分别对所述查询词进行分词,得到每个词典对应的分词结果,其中,所述两个以上的词典包括基本词典和新词词典,所述新词词典用于存储所述基本词典中未收录的词组;
所述第二获取模块,用于根据每个词典对应的分词结果分别获取搜索结果信息,得到每个词典对应的搜索结果信息;
所述确定模块,用于从各个词典对应的搜索结果信息中确定最终的搜索结果。
7.根据权利要求6所述的装置,其特征在于,
所述分词模块,用于通过查询处理函数数据库获得各个词典的分词处理函数,调用各个词典的分词处理函数分别对所述查询词进行分词,其中,在所述处理函数数据库中存储有分词版本号和/或词典名称、与分词处理函数名称和分词处理函数地址之间的对应关系。
8.根据权利要求6所述的装置,其特征在于,
所述确定模块,用于将新词词典对应的全部搜索结果和基本词典对应的至少部分搜索结果确定为最终的搜索结果,或者,将新词词典对应的至少部分搜索结果确定为最终的搜索结果,或者,根据与查询词的相关性,从新词词典对应的搜索结果和基本词典对应的搜索结果中各选出至少部分确定为最终的搜索结果。
9.根据权利要求8所述的装置,其特征在于,确定的最终的搜索结果的总条数为一定值。
10.根据权利要求8所述的装置,其特征在于,该装置还包括加速数据库,
所述加速数据库,用于存储所述两个以上的词典中的每个词组对应的搜索结果条数信息;
所述第二获取模块,用于根据每个词典对应的分词结果包含的词组,从所述加速数据库中获取相应词组的搜索结果条数信息,根据获取的每个词组的搜索结果条数信息,确定每个词典对应的搜索结果条数信息;
所述确定模块,用于判断新词词典对应的搜索结果条数信息是否达到预定阈值,如果是,根据新词词典的分词结果从倒排数据库中获取新词词典对应的搜索结果,将新词词典对应的至少部分搜索结果确定为最终的搜索结果,如果否,根据新词词典的分词结果从倒排数据库中获取新词词典对应的搜索结果、且根据基本词典的分词结果从倒排数据库中获取基本词典对应的搜索结果,将新词词典对应的全部搜索结果和基本词典对应的至少部分搜索结果确定为最终的搜索结果,或者,根据与查询词的相关性,从新词词典对应的搜索结果和基本词典对应的搜索结果中各选出至少部分确定为最终的搜索结果。
CN201210232960.1A 2012-07-06 2012-07-06 一种信息搜索方法和装置 Pending CN103530298A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210232960.1A CN103530298A (zh) 2012-07-06 2012-07-06 一种信息搜索方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210232960.1A CN103530298A (zh) 2012-07-06 2012-07-06 一种信息搜索方法和装置

Publications (1)

Publication Number Publication Date
CN103530298A true CN103530298A (zh) 2014-01-22

Family

ID=49932320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210232960.1A Pending CN103530298A (zh) 2012-07-06 2012-07-06 一种信息搜索方法和装置

Country Status (1)

Country Link
CN (1) CN103530298A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942190A (zh) * 2014-04-16 2014-07-23 安徽科大讯飞信息科技股份有限公司 文本分词方法及系统
CN106649249A (zh) * 2015-07-14 2017-05-10 比亚迪股份有限公司 检索方法和检索装置
CN106951548A (zh) * 2017-03-27 2017-07-14 聚龙融创科技有限公司 基于rm算法提升特写词语搜索精度的方法及系统
CN108491373A (zh) * 2018-02-01 2018-09-04 北京百度网讯科技有限公司 一种实体识别方法及系统
CN111160014A (zh) * 2019-12-03 2020-05-15 北京博瑞彤芸科技股份有限公司 一种智能分词方法
CN112214994A (zh) * 2020-10-10 2021-01-12 苏州大学 基于多级词典的分词方法、装置、设备及可读存储介质

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942190A (zh) * 2014-04-16 2014-07-23 安徽科大讯飞信息科技股份有限公司 文本分词方法及系统
CN103942190B (zh) * 2014-04-16 2017-08-25 科大讯飞股份有限公司 语音合成中文本分词方法及系统
CN106649249A (zh) * 2015-07-14 2017-05-10 比亚迪股份有限公司 检索方法和检索装置
CN106951548A (zh) * 2017-03-27 2017-07-14 聚龙融创科技有限公司 基于rm算法提升特写词语搜索精度的方法及系统
CN106951548B (zh) * 2017-03-27 2020-07-17 聚龙融创科技有限公司 基于rm算法提升特写词语搜索精度的方法及系统
CN108491373A (zh) * 2018-02-01 2018-09-04 北京百度网讯科技有限公司 一种实体识别方法及系统
CN108491373B (zh) * 2018-02-01 2022-05-27 北京百度网讯科技有限公司 一种实体识别方法及系统
CN111160014A (zh) * 2019-12-03 2020-05-15 北京博瑞彤芸科技股份有限公司 一种智能分词方法
CN111160014B (zh) * 2019-12-03 2023-05-16 北京博瑞彤芸科技股份有限公司 一种智能分词方法
CN112214994A (zh) * 2020-10-10 2021-01-12 苏州大学 基于多级词典的分词方法、装置、设备及可读存储介质
WO2022073333A1 (zh) * 2020-10-10 2022-04-14 苏州大学 基于多级词典的分词方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN108170859B (zh) 语音查询的方法、装置、存储介质及终端设备
CN103530298A (zh) 一种信息搜索方法和装置
CN104142915B (zh) 一种添加标点的方法和系统
US8250053B2 (en) Intelligent enhancement of a search result snippet
CN101706807B (zh) 一种中文网页新词自动获取方法
CN103150397B (zh) 一种数据索引创建方法、数据检索方法和系统
CN106407360B (zh) 一种数据的处理方法及装置
CN103106199B (zh) 文本检索方法和装置
CN101996248B (zh) 地址查询方法及装置
JP5930496B2 (ja) レイアウトファイルにおける構造化情報の取得方法及び装置
CN102411617B (zh) 一种对海量url进行存储和查询方法
CN101650742B (zh) 一种对英文检索的检索条件进行提示的系统及方法
CN101149758A (zh) 搜索系统及搜索方法
CN105373541A (zh) 数据库的数据操作请求的处理方法和系统
CN101082936A (zh) 数据查询系统及方法
CN103714092A (zh) 一种地理位置的搜索方法和装置
CN110276079B (zh) 一种词库建立方法、信息检索方法及对应的系统
CN103744913A (zh) 一种基于搜索引擎技术的数据库检索方法
CN106547828A (zh) 一种基于神经网络的数据库缓存系统及方法
CN103377292B (zh) 数据库结果集缓存方法及设备
CN104391923A (zh) 一种查询数据集的方法及装置
CN103455491A (zh) 对查询词分类的方法及装置
CN104166649B (zh) 一种用于搜索引擎的缓存方法和设备
CN107995098A (zh) 信息推送方法及装置
CN113626449A (zh) 数据存储、数据查询方法及相关设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140122