CN108376170A - 确定检索结果的方法和装置 - Google Patents
确定检索结果的方法和装置 Download PDFInfo
- Publication number
- CN108376170A CN108376170A CN201810160828.1A CN201810160828A CN108376170A CN 108376170 A CN108376170 A CN 108376170A CN 201810160828 A CN201810160828 A CN 201810160828A CN 108376170 A CN108376170 A CN 108376170A
- Authority
- CN
- China
- Prior art keywords
- character
- text fragments
- target
- text
- mark
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种确定检索结果的方法和装置,属于信息检索技术领域。所述方法包括:获取待检索的目标字符串;对所述目标字符串进行分词处理,得到所述目标字符串包含的各目标字符;根据预先存储的各字符与文本片段的对应关系,确定包含各目标字符的目标文本片段;将得到的所述目标文本片段,确定为所述目标字符串对应的检索结果。采用本发明,可以提高检索效率。
Description
技术领域
本发明涉及信息检索技术领域,特别涉及一种确定检索结果的方法和装置。
背景技术
随着计算机以及信息检索技术的发展,检索系统的使用越来越广泛,比如,服务器可以检索包含待检索字符串的文本片段。
具体的,用户可以根据自己的需求,通过终端输入待检索字符串,服务器接收到待检索字符串后,可以扫描预先存储的文本数据,即可以以字符为步长,对文本数据与待检索字符串进行匹配,得到包含待检索字符串的文本片段。
在实现本发明的过程中,发明人发现相关技术至少存在以下问题:
基于上述处理方式,服务器需要对文本数据进行扫描,往往扫描需要消耗的时间比较多,从而,导致检索效率较低。
发明内容
为了解决相关技术存在的检索效率较低的问题,本发明实施例提供了一种确定检索结果的方法和装置。所述技术方案如下:
一方面,提供了一种确定检索结果的方法,所述方法包括:
获取待检索的目标字符串;
对所述目标字符串进行分词处理,得到所述目标字符串包含的各目标字符;
根据预先存储的各字符与文本片段的对应关系,确定包含各目标字符的目标文本片段;
将得到的所述目标文本片段,确定为所述目标字符串对应的检索结果。
可选的,所述根据预先存储的各字符与文本片段的对应关系,确定包含各目标字符的目标文本片段,包括:
对于所述各目标字符中的每个目标字符,根据预先存储的各字符与文本片段标识的对应关系,确定所述目标字符对应的文本片段标识;
根据各目标字符对应的文本片段标识,在各目标字符对应的文本片段标识中确定目标文本片段标识;
根据预先存储的文本片段标识与本文片段的对应关系,确定所述目标文本片段标识对应的文本片段,得到包含各目标字符的目标文本片段。
可选的,所述根据各目标字符对应的文本片段标识,在各目标字符对应的文本片段标识中确定目标文本片段标识,包括:
根据各目标字符对应的文本片段标识,确定每个文本片段标识对应的出现次数;
确定对应的出现次数达到各目标字符的数量的目标文本片段标识。
可选的,所述方法还包括:
获取目标文本数据对应的多个文本片段;
为每个文本片段分配文本片段片标识,将每个文本片段和文本片段标识对应添加到所述文本片段标识与文本片段的对应关系中;
对多个文本片段中的每个文本片段进行分词处理,得到每个文本片段包含的各字符,统计多个文本片段包含的各字符分别对应的文本片段标识;
将多个文本片段包含的各字符和分别对应的文本片段标识对应添加到所述各字符与文本片段标识的对应关系中。
可选的,所述将每个字符和对应的文本片段标识对应添加到字符与文本片段标识的对应关系中,包括:
对于所述多个文本片段包含的各字符中的每个字符,如果所述各字符与文本片段标识的对应关系中包括所述字符,则将此次确定出的所述字符对应的文本片段标识,添加到所述字符对应的对应关系项中;
如果所述各字符与文本片段标识的对应关系中不包括所述字符,则将此次确定出的所述字符和对应的文本片段标识作为新的对应关系项,添加到所述各字符与文本片段标识的对应关系中。
一方面,提供了一种确定检索结果的装置,所述装置包括:
第一获取模块,用于获取待检索的目标字符串;
分词模块,用于对所述目标字符串进行分词处理,得到所述目标字符串包含的各目标字符;
第一确定模块,用于根据预先存储的各字符与文本片段的对应关系,确定包含各目标字符的目标文本片段;
第二确定模块,用于将得到的所述目标文本片段,确定为所述目标字符串对应的检索结果。
可选的,所述第一确定模块,用于:
对于所述各目标字符中的每个目标字符,根据预先存储的各字符与文本片段标识的对应关系,确定所述目标字符对应的文本片段标识;
根据各目标字符对应的文本片段标识,在各目标字符对应的文本片段标识中确定目标文本片段标识;
根据预先存储的文本片段标识与本文片段的对应关系,确定所述目标文本片段标识对应的文本片段,得到包含各目标字符的目标文本片段。
可选的,所述第一确定模块,用于:
根据各目标字符对应的文本片段标识,确定每个文本片段标识对应的出现次数;
确定对应的出现次数达到各目标字符的数量的目标文本片段标识。
可选的,所述装置还包括:
第二获取模块,用于获取目标文本数据对应的多个文本片段;
第一添加模块,用于为每个文本片段分配文本片段片标识,将每个文本片段和文本片段标识对应添加到所述文本片段标识与文本片段的对应关系中;
统计模块,用于对多个文本片段中的每个文本片段进行分词处理,得到每个文本片段包含的各字符,统计多个文本片段包含的各字符分别对应的文本片段标识;
第二添加模块,用于将多个文本片段包含的各字符和分别对应的文本片段标识对应添加到所述各字符与文本片段标识的对应关系中。
可选的,所述第二添加模块,用于:
对于所述多个文本片段包含的各字符中的每个字符,如果所述各字符与文本片段标识的对应关系中包括所述字符,则将此次确定出的所述字符对应的文本片段标识,添加到所述字符对应的对应关系项中;
如果所述各字符与文本片段标识的对应关系中不包括所述字符,则将此次确定出的所述字符和对应的文本片段标识作为新的对应关系项,添加到所述各字符与文本片段标识的对应关系中。
本发明实施例提供的技术方案带来的有益效果是:
本发明实施例中,获取待检索的目标字符串;对目标字符串进行分词处理,得到目标字符串包含的各目标字符;根据预先存储的各字符与文本片段的对应关系,确定包含各目标字符的目标文本片段;将得到的目标文本片段,确定为目标字符串对应的检索结果。这样,服务器可以在上述对应关系中,查找到包含各目标字符的文本片段,往往查表需要的时间比较少,从而,可以提高检索效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种确定检索结果的方法流程图;
图2是本发明实施例提供的一种系统框架示意图;
图3是本发明实施例提供的一种确定字符对应的文本片段标识的示意图;
图4是本发明实施例提供的一种确定检索结果的装置结构示意图;
图5是本发明实施例提供的一种确定检索结果的装置结构示意图;
图6是本发明实施例提供的一种服务器的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明实施例提供了一种确定检索结果的方法,该方法的执行主体为服务器。其中,该服务器可以是具有检索功能的服务器,比如可以是歌曲播放类应用程序的后台服务器。服务器可以包括处理器、存储器、收发器等部件。处理器可以为CPU(CentralProcessing Unit,中央处理单元)等,可以用于进行分词处理、确定目标文本片段的处理。存储器可以为RAM(Random Access Memory,随机存取存储器)、Flash(闪存)等,可以用于存储接收到的数据、处理过程所需的数据、处理过程中生成的数据等,如各字符与文本片段的对应关系等。收发器可以用于与终端或其它服务器进行数据传输,例如,向终端发送检索结果,或者接收终端发送的目标字符串,收发器可以包括天线、匹配电路、调制解调器等。
下面将结合具体实施方式,对图1所示的处理流程进行详细的说明,内容可以如下:
步骤101,获取待检索的目标字符串。
其中,目标字符串可以是服务器待进行模糊检索的字符串,字符串可以是由英文字母、数字、文字等字符组成的字符串。
在实施中,服务器中可以预先设置有用于触发进行模糊检索的模糊检索触发事件,其中,模糊检索触发事件可以是接收到终端发送的携带有待检索的字符串(可称为目标字符串)的检索请求,当服务器检测到预设的模糊检索触发事件发生时,可以获取待检索的目标字符串。例如,服务器是歌曲播放类应用程序的后台服务器,用户想要搜索某歌曲时,可以在终端的输入框中输入该歌曲的歌曲名的部分文字(即目标字符串),并通过操作触发终端向服务器发送携带有目标字符串的检索请求,相应的,服务器可以接收终端发送的携带有目标字符串的检索请求,进而,可以对其进行解析,获取待检索的目标字符串,如图2所示。
步骤102,对目标字符串进行分词处理,得到目标字符串包含的各目标字符。
在实施中,服务器获取到目标字符串后,可以对目标字符串进行分词处理,得到目标字符串包含的各字符(其中,目标字符串包含的每个字符可称为目标字符),其中,每个目标字符可以是单个的字符。例如,目标字符串为“漫长岁月”,服务器对该目标字符串进行分词处理后,得到的各目标字符可以是“漫”、“长”、“岁”、“月”。另外,服务器对目标字符串进行分词处理时采用的分词标准可以是以下分词标准中的任意组合:utf-8编码标准、unicode编码标准、英文单词、数据串。
步骤103,根据预先存储的各字符与文本片段的对应关系,确定包含各目标字符的目标文本片段。
其中,各字符对应的文本片段可以是包含对应字符的文本片段,文本片段可以是待成为检索结果的文本片段,例如,检索系统用于用户检索歌曲名,则文本片段可以是各个完整的歌曲名。
在实施中,服务器中可以预先存储有各字符与文本片段的对应关系,其中,对应关系中的各字符可以是对各文本片段进行分词处理得到的,具体处理过程将在后续进行详细表述。服务器确定出各目标字符后,可以根据上述对应关系,确定包含各目标字符的目标文本片段。
可选的,各字符与文本片段的对应关系可以包括各字符与文本片段标识的对应关系、文本片段标识与文本片段的对应关系,相应的,步骤103的处理过程可以如下:对于各目标字符中的每个目标字符,根据预先存储的各字符与文本片段标识的对应关系,确定该目标字符对应的文本片段标识;根据各目标字符对应的文本片段标识,在各目标字符对应的文本片段标识中确定目标文本片段标识;根据预先存储的文本片段标识与本文片段的对应关系,确定目标文本片段标识对应的文本片段,得到包含各目标字符的目标文本片段。
其中,文本片段标识可是对应文本片段的唯一标识。
在实施中,服务器中可以预先存储有各字符与文本片段标识的对应关系(该对应关系可以是以key-values(键值对)型索引表的形式存储在服务器中,其中,每个字符为key,文本片段标识为values,如表1所示)、文本片段标识与文本片段的对应关系(该对应关系可以是以key-values(键值对)型索引表的形式存储在服务器中,其中,每个文本片段标识为key,文本片段为values,如表2所示),其中,每个字符可以对应一个或多个文本片段标识,每个文本片段标识对应一个文本片段。此外,key-values型索引表包括但不限于:带有键值检索功能的数据库(比如Mysql、Redis)、各种形式的key-values数据结构(比如map、set)。
服务器得到目标字符串包含的各目标字符后,对于各目标字符中的每个目标字符,服务器可以在预先存储的各字符与文本片段标识的对应关系中,确定该目标字符对应的文本片段标识。得到各目标字符对应的文本片段标识后,可以基于各目标字符对应的文本片段标识,在确定出的文本片段标识中确定目标文本片段标识,进而,可以在预先存储的文本片段标识与本文片段的对应关系中,确定目标文本片段标识对应的文本片段,得到包含各目标字符的目标文本片段。例如,服务器得到各目标字符对应的文本片段标识后,可以对各目标字符对应的文本片段标识进行分析,统计每个目标字符对应的文本片段标识中均包含的文本片段标识,并将其确定为目标文本片段标识,进而,可以在预先存储的文本片段标识与本文片段的对应关系中,确定目标文本片段标识对应的目标文本片段。
表1
字符(key) | 文本片段标识(values) |
字符1 | 文本片段标识1、文本片段标识2… |
字符2 | 文本片段标识3、文本片段标识4… |
… | … |
表2
文本片段标识(key) | 文本片段(values) |
文本片段标识1 | 文本片段1 |
文本片段标识2 | 文本片段标识2 |
… | … |
可选的,服务器可以根据每个文本片段标识的出现次数,确定目标文本片段标识,相应的,处理过程可以如下:根据各目标字符对应的文本片段标识,确定每个文本片段标识对应的出现次数;确定对应的出现次数达到各目标字符的数量的目标文本片段标识。
在实施中,得到各目标字符对应的文本片段标识后,服务器可以对各目标字符对应的文本片段标识进行分析,统计每个不同的文本片段标识对应的出现次数,并可以获取目标字符串包含的各目标字符的数量,进而,可以对每个不同的文本片段标识对应的出现次数与各目标字符的数量进行比较,确定对应的出现次数达到各目标字符的数量的文本片段标识,并可以将其确定为目标文本片段标识。
可选的,上述各字符与文本片段标识的对应关系、文本片段标识与文本片段的对应关系的确定过程可以如下:获取目标文本数据对应的多个文本片段;为每个文本片段分配文本片段片标识,将每个文本片段和文本片段标识对应添加到文本片段标识与文本片段的对应关系中;对多个文本片段中的每个文本片段进行分词处理,得到每个文本片段包含的各字符,统计多个文本片段包含的各字符分别对应的文本片段标识;将多个文本片段包含的各字符和分别对应的文本片段标识对应添加到字符与文本片段标识的对应关系中。
在实施中,服务器中可以获取预先存储的目标文本数据,进而,可以对其进行分片处理,得到目标文本数据对应的多个文本片段,此时,即获取到了目标文本数据对应的对个文本片段,其中,目标文本数据的存储方式可以与分片处理的分片方式相对应,例如,对于文本片段是歌曲名的情况,在存储目标文本数据(多个歌曲名)时按文本行存储每个歌曲名,则服务器可以按照文本行进行分片处理,或者,在存储目标文本数据(多个歌曲名)时按文本列存储每个歌曲名,则服务器可以按照文本列进行分片处理,或者,在存储目标文本数据(多个歌曲名)时按预设字符数存储每个歌曲名,则服务器可以按照预设字符数进行分片处理。
得到多个文本片段后,服务器可以为每个文本片段分配文本片段标识,进而,可以将每个文本片段标识和对应的每个文本片段作为新的对应关系项,添加到文本片段标识与文本片段的对应关系。得到多个文本片段后,除了为每个文本片段分配对应的文本片段标识之外,还可以对每个文本片段进行分词处理,得到每个文本片段包含的各字符。得到多个文本片段包含的各字符后,对于每个字符,服务器可以确定该字符所属的文本片段,进而,可以将该字符所属的文本片段对应的文本片段标识,确定为该字符对应的文本片段标识,其中,当某字符出现在多个文本片段中时,该字符对应的文本片段标识可以是该多个文本片段分别对应的文本片段标识。例如,多个文本片段分别为abc、abd、cdf,服务器分别为abc、abd、cdf分配的文本片段标识为文本片段标识1、文本片段标识2、文本片段标识3,abc包含的各字符为a、b、c,abd包含的各字符为a、b、d,cfd包含的各字符为c、f、d,则服务器可以统计字符a对应的文本片段标识为:文本片段标识1和文本片段标识2,字符b对应的文本片段标识为:文本片段标识1和文本片段标识2,字符c对应的文本片段标识为:文本片段标识1和文本片段标识3,字符d对应的文本片段标识为:文本片段标识2和文本片段标识3,字符f对应的文本片段标识为:文本片段标识3,如图3所示。
得到多个文本片段包含的各字符对应的文本片段标识后,可以将多个文本片段包含的各字符和分别对应的文本片段标识对应添加到字符与文本片段标识的对应关系中。
可选的,存储某字符对应的文本片段标识时,各字符与文本片段标识的对应关系中可能会存在该字符,针对此种情况,相应的,处理过程可以如下:对于多个文本片段包含的各字符中的每个字符,如果各字符与文本片段标识的对应关系中包括该字符,则将此次确定出的该字符对应的文本片段标识,添加到该字符对应的对应关系项中;如果各字符与文本片段标识的对应关系中不包括该字符,则将此次确定出的该字符和对应的文本片段标识作为新的对应关系项,添加到各字符与文本片段标识的对应关系中。
在实施中,得到多个文本片段包含的各字符对应的文本片段标识后,对于每个字符,服务器可以判断预先存储的各字符与文本片段标识的对应关系中是否包括该字符,如果各字符与文本片段标识的对应关系中包括该字符,则服务器可以将此次确定出的该字符对应的文本片段标识,添加到该字符对应的字符关系项中,即可以将该字符对应的文本片段标识添加到该字符对应的values中。如果各字符与文本片段标识的对应关系中不包括该字符,则可以将此次确定出的该字符和对应的文本片段标识作为新的对应关系项,添加到各字符与文本片段标识的对应关系中。也就是说,如果预先存储的各字符与文本片段标识的对应关系中包括多个文本片段包含的各字符中的某字符,则将此次确定出的该字符对应的文本片段标识,添加到该字符对应的对应关系项中;对于多个文本片段包含的各字符中除该字符之外的其他字符,将其他字符和对应的文本片段标识作为新的对应关系项,添加到各字符与文本片段标识的对应关系中。
步骤104,将得到的目标文本片段,确定为目标字符串对应的检索结果。
在实施中,服务器得到包含各目标字符的目标文本片段后,可以将目标文本片段确定为目标字符串对应的检索结果。针对模糊检索触发事件是接收到终端发送的携带有目标字符串的检索请求的情况,服务器确定出目标字符串对应的检索结果后,可以向终端发送目标字符串对应的检索结果。相应的,终端接收到目标字符串对应的检索结果后,可以对其进行显示。
本发明实施例中,获取待检索的目标字符串;对目标字符串进行分词处理,得到目标字符串包含的各目标字符;根据预先存储的各字符与文本片段的对应关系,确定包含各目标字符的目标文本片段;将得到的目标文本片段,确定为目标字符串对应的检索结果。这样,服务器可以在上述对应关系中,查找到包含各目标字符的文本片段,往往查表需要的时间比较少,从而,可以提高检索效率。
基于相同的技术构思,本发明实施例还提供了一种确定检索结果的装置,该装置可以是上述服务器,如图4所示,该装置包括:
第一获取模块410,用于获取待检索的目标字符串;
分词模块420,用于对所述目标字符串进行分词处理,得到所述目标字符串包含的各目标字符;
第一确定模块430,用于根据预先存储的各字符与文本片段的对应关系,确定包含各目标字符的目标文本片段;
第二确定模块440,用于将得到的所述目标文本片段,确定为所述目标字符串对应的检索结果。
可选的,所述第一确定模块430,用于:
对于所述各目标字符中的每个目标字符,根据预先存储的各字符与文本片段标识的对应关系,确定所述目标字符对应的文本片段标识;
根据各目标字符对应的文本片段标识,在各目标字符对应的文本片段标识中确定目标文本片段标识;
根据预先存储的文本片段标识与本文片段的对应关系,确定所述目标文本片段标识对应的文本片段,得到包含各目标字符的目标文本片段。
可选的,所述第一确定模块430,用于:
根据各目标字符对应的文本片段标识,确定每个文本片段标识对应的出现次数;
确定对应的出现次数达到各目标字符的数量的目标文本片段标识。
可选的,如图5所示,所述装置还包括:
第二获取模块450,用于获取目标文本数据对应的多个文本片段;
第一添加模块460,用于为每个文本片段分配文本片段片标识,将每个文本片段和文本片段标识对应添加到所述文本片段标识与文本片段的对应关系中;
统计模块470,用于对多个文本片段中的每个文本片段进行分词处理,得到每个文本片段包含的各字符,统计多个文本片段包含的各字符分别对应的文本片段标识;
第二添加模块480,用于将多个文本片段包含的各字符和分别对应的文本片段标识对应添加到所述各字符与文本片段标识的对应关系中。
可选的,所述第二添加模块480,用于:
对于所述多个文本片段包含的各字符中的每个字符,如果所述各字符与文本片段标识的对应关系中包括所述字符,则将此次确定出的所述字符对应的文本片段标识,添加到所述字符对应的对应关系项中;
如果所述各字符与文本片段标识的对应关系中不包括所述字符,则将此次确定出的所述字符和对应的文本片段标识作为新的对应关系项,添加到所述各字符与文本片段标识的对应关系中。
本发明实施例中,获取待检索的目标字符串;对目标字符串进行分词处理,得到目标字符串包含的各目标字符;根据预先存储的各字符与文本片段的对应关系,确定包含各目标字符的目标文本片段;将得到的目标文本片段,确定为目标字符串对应的检索结果。这样,服务器可以在上述对应关系中,查找到包含各目标字符的文本片段,往往查表需要的时间比较少,从而,可以提高检索效率。
需要说明的是:上述实施例提供的确定检索结果的装置在确定检索结果时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将服务器的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的确定检索结果的装置与确定检索结果的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图6是本发明实施例提供的服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作系统1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
服务器1900可以包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取待检索的目标字符串;
对所述目标字符串进行分词处理,得到所述目标字符串包含的各目标字符;
根据预先存储的各字符与文本片段的对应关系,确定包含各目标字符的目标文本片段;
将得到的所述目标文本片段,确定为所述目标字符串对应的检索结果。
可选的,所述根据预先存储的各字符与文本片段的对应关系,确定包含各目标字符的目标文本片段,包括:
对于所述各目标字符中的每个目标字符,根据预先存储的各字符与文本片段标识的对应关系,确定所述目标字符对应的文本片段标识;
根据各目标字符对应的文本片段标识,在各目标字符对应的文本片段标识中确定目标文本片段标识;
根据预先存储的文本片段标识与本文片段的对应关系,确定所述目标文本片段标识对应的文本片段,得到包含各目标字符的目标文本片段。
可选的,所述根据各目标字符对应的文本片段标识,在各目标字符对应的文本片段标识中确定目标文本片段标识,包括:
根据各目标字符对应的文本片段标识,确定每个文本片段标识对应的出现次数;
确定对应的出现次数达到各目标字符的数量的目标文本片段标识。
可选的,所述方法还包括:
获取目标文本数据对应的多个文本片段;
为每个文本片段分配文本片段片标识,将每个文本片段和文本片段标识对应添加到所述文本片段标识与文本片段的对应关系中;
对多个文本片段中的每个文本片段进行分词处理,得到每个文本片段包含的各字符,统计多个文本片段包含的各字符分别对应的文本片段标识;
将多个文本片段包含的各字符和分别对应的文本片段标识对应添加到所述各字符与文本片段标识的对应关系中。
可选的,所述将每个字符和对应的文本片段标识对应添加到字符与文本片段标识的对应关系中,包括:
对于所述多个文本片段包含的各字符中的每个字符,如果所述各字符与文本片段标识的对应关系中包括所述字符,则将此次确定出的所述字符对应的文本片段标识,添加到所述字符对应的对应关系项中;
如果所述各字符与文本片段标识的对应关系中不包括所述字符,则将此次确定出的所述字符和对应的文本片段标识作为新的对应关系项,添加到所述各字符与文本片段标识的对应关系中。
本发明实施例中,获取待检索的目标字符串;对目标字符串进行分词处理,得到目标字符串包含的各目标字符;根据预先存储的各字符与文本片段的对应关系,确定包含各目标字符的目标文本片段;将得到的目标文本片段,确定为目标字符串对应的检索结果。这样,服务器可以在上述对应关系中,查找到包含各目标字符的文本片段,往往查表需要的时间比较少,从而,可以提高检索效率。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种确定检索结果的方法,其特征在于,所述方法包括:
获取待检索的目标字符串;
对所述目标字符串进行分词处理,得到所述目标字符串包含的各目标字符;
根据预先存储的各字符与文本片段的对应关系,确定包含各目标字符的目标文本片段;
将得到的所述目标文本片段,确定为所述目标字符串对应的检索结果。
2.根据权利要求1所述的方法,其特征在于,所述根据预先存储的各字符与文本片段的对应关系,确定包含各目标字符的目标文本片段,包括:
对于所述各目标字符中的每个目标字符,根据预先存储的各字符与文本片段标识的对应关系,确定所述目标字符对应的文本片段标识;
根据各目标字符对应的文本片段标识,在各目标字符对应的文本片段标识中确定目标文本片段标识;
根据预先存储的文本片段标识与本文片段的对应关系,确定所述目标文本片段标识对应的文本片段,得到包含各目标字符的目标文本片段。
3.根据权利要求2所述的方法,其特征在于,所述根据各目标字符对应的文本片段标识,在各目标字符对应的文本片段标识中确定目标文本片段标识,包括:
根据各目标字符对应的文本片段标识,确定每个文本片段标识对应的出现次数;
确定对应的出现次数达到各目标字符的数量的目标文本片段标识。
4.根据权利要求2或3所述的方法,其特征在于,所述方法还包括:
获取目标文本数据对应的多个文本片段;
为每个文本片段分配文本片段片标识,将每个文本片段和文本片段标识对应添加到所述文本片段标识与文本片段的对应关系中;
对多个文本片段中的每个文本片段进行分词处理,得到每个文本片段包含的各字符,统计多个文本片段包含的各字符分别对应的文本片段标识;
将多个文本片段包含的各字符和分别对应的文本片段标识对应添加到所述各字符与文本片段标识的对应关系中。
5.根据权利要求4所述的方法,其特征在于,所述将每个字符和对应的文本片段标识对应添加到字符与文本片段标识的对应关系中,包括:
对于所述多个文本片段包含的各字符中的每个字符,如果所述各字符与文本片段标识的对应关系中包括所述字符,则将此次确定出的所述字符对应的文本片段标识,添加到所述字符对应的对应关系项中;
如果所述各字符与文本片段标识的对应关系中不包括所述字符,则将此次确定出的所述字符和对应的文本片段标识作为新的对应关系项,添加到所述各字符与文本片段标识的对应关系中。
6.一种确定检索结果的装置,其特征在于,所述装置包括:
第一获取模块,用于获取待检索的目标字符串;
分词模块,用于对所述目标字符串进行分词处理,得到所述目标字符串包含的各目标字符;
第一确定模块,用于根据预先存储的各字符与文本片段的对应关系,确定包含各目标字符的目标文本片段;
第二确定模块,用于将得到的所述目标文本片段,确定为所述目标字符串对应的检索结果。
7.根据权利要求6所述的装置,其特征在于,所述第一确定模块,用于:
对于所述各目标字符中的每个目标字符,根据预先存储的各字符与文本片段标识的对应关系,确定所述目标字符对应的文本片段标识;
根据各目标字符对应的文本片段标识,在各目标字符对应的文本片段标识中确定目标文本片段标识;
根据预先存储的文本片段标识与本文片段的对应关系,确定所述目标文本片段标识对应的文本片段,得到包含各目标字符的目标文本片段。
8.根据权利要求7所述的装置,其特征在于,所述第一确定模块,用于:
根据各目标字符对应的文本片段标识,确定每个文本片段标识对应的出现次数;
确定对应的出现次数达到各目标字符的数量的目标文本片段标识。
9.根据权利要求7或8所述的装置,其特征在于,所述装置还包括:
第二获取模块,用于获取目标文本数据对应的多个文本片段;
第一添加模块,用于为每个文本片段分配文本片段片标识,将每个文本片段和文本片段标识对应添加到所述文本片段标识与文本片段的对应关系中;
统计模块,用于对多个文本片段中的每个文本片段进行分词处理,得到每个文本片段包含的各字符,统计多个文本片段包含的各字符分别对应的文本片段标识;
第二添加模块,用于将多个文本片段包含的各字符和分别对应的文本片段标识对应添加到所述各字符与文本片段标识的对应关系中。
10.根据权利要求9所述的装置,其特征在于,所述第二添加模块,用于:
对于所述多个文本片段包含的各字符中的每个字符,如果所述各字符与文本片段标识的对应关系中包括所述字符,则将此次确定出的所述字符对应的文本片段标识,添加到所述字符对应的对应关系项中;
如果所述各字符与文本片段标识的对应关系中不包括所述字符,则将此次确定出的所述字符和对应的文本片段标识作为新的对应关系项,添加到所述各字符与文本片段标识的对应关系中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810160828.1A CN108376170A (zh) | 2018-02-27 | 2018-02-27 | 确定检索结果的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810160828.1A CN108376170A (zh) | 2018-02-27 | 2018-02-27 | 确定检索结果的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108376170A true CN108376170A (zh) | 2018-08-07 |
Family
ID=63018131
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810160828.1A Pending CN108376170A (zh) | 2018-02-27 | 2018-02-27 | 确定检索结果的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108376170A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110807092A (zh) * | 2019-10-24 | 2020-02-18 | 深圳市元征科技股份有限公司 | 数据处理方法及装置 |
CN110825846A (zh) * | 2019-10-24 | 2020-02-21 | 深圳市元征科技股份有限公司 | 数据处理方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101075252A (zh) * | 2007-06-21 | 2007-11-21 | 腾讯科技(深圳)有限公司 | 一种网络搜索方法及系统 |
CN102810096A (zh) * | 2011-06-02 | 2012-12-05 | 阿里巴巴集团控股有限公司 | 一种基于单字索引系统的检索方法和装置 |
CN106528846A (zh) * | 2016-11-21 | 2017-03-22 | 广州华多网络科技有限公司 | 一种检索方法及装置 |
CN107436911A (zh) * | 2017-05-24 | 2017-12-05 | 阿里巴巴集团控股有限公司 | 模糊查询方法、装置及查询系统 |
-
2018
- 2018-02-27 CN CN201810160828.1A patent/CN108376170A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101075252A (zh) * | 2007-06-21 | 2007-11-21 | 腾讯科技(深圳)有限公司 | 一种网络搜索方法及系统 |
CN102810096A (zh) * | 2011-06-02 | 2012-12-05 | 阿里巴巴集团控股有限公司 | 一种基于单字索引系统的检索方法和装置 |
CN106528846A (zh) * | 2016-11-21 | 2017-03-22 | 广州华多网络科技有限公司 | 一种检索方法及装置 |
CN107436911A (zh) * | 2017-05-24 | 2017-12-05 | 阿里巴巴集团控股有限公司 | 模糊查询方法、装置及查询系统 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110807092A (zh) * | 2019-10-24 | 2020-02-18 | 深圳市元征科技股份有限公司 | 数据处理方法及装置 |
CN110825846A (zh) * | 2019-10-24 | 2020-02-21 | 深圳市元征科技股份有限公司 | 数据处理方法及装置 |
CN110825846B (zh) * | 2019-10-24 | 2023-10-20 | 深圳市元征科技股份有限公司 | 数据处理方法及装置 |
CN110807092B (zh) * | 2019-10-24 | 2023-10-20 | 深圳市元征科技股份有限公司 | 数据处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104899220B (zh) | 应用程序推荐方法和系统 | |
US8364663B2 (en) | Tokenized javascript indexing system | |
CN106959976B (zh) | 一种搜索处理方法以及装置 | |
CN110795756A (zh) | 一种数据脱敏方法、装置、计算机设备及计算机可读存储介质 | |
CN103559313B (zh) | 搜索方法及装置 | |
WO2015131510A1 (zh) | 输入资源推送方法、系统、计算机存储介质和设备 | |
CN111400361A (zh) | 数据实时存储方法、装置、计算机设备和存储介质 | |
US20070028168A1 (en) | Phonetic searching using multiple readings | |
CN111443899B (zh) | 一种元素处理方法、装置、电子设备及存储介质 | |
Ding et al. | {ELISE}: A storage efficient logging system powered by redundancy reduction and representation learning | |
CN108376170A (zh) | 确定检索结果的方法和装置 | |
CN112347100A (zh) | 数据库索引优化方法、装置、计算机设备和存储介质 | |
CN105787004A (zh) | 一种文本分类方法及装置 | |
CN111930949B (zh) | 搜索串处理方法、装置、计算机可读介质及电子设备 | |
CN111090651B (zh) | 数据源的处理方法、装置、设备及可读存储介质 | |
CN105808636B (zh) | 一种基于app信息数据的超文本链接推送系统 | |
US20110252039A1 (en) | System, apparatus and method for processing content on a computing device | |
Brandouy et al. | Estimating the algorithmic complexity of stock markets | |
CN115080824A (zh) | 目标词的挖掘方法、装置、电子设备及存储介质 | |
US20210397636A1 (en) | Text object management system | |
CN116257672A (zh) | 数据查询方法、装置、设备及存储介质 | |
CN110263082B (zh) | 数据库的数据分布分析方法、装置、电子设备及存储介质 | |
CN115757049B (zh) | 多业务模块日志记录方法、系统、电子设备及存储介质 | |
CN113076395A (zh) | 语义模型训练、搜索显示方法、装置、设备及存储介质 | |
CN114756712B (zh) | 热词数量的统计方法、装置、电子设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180807 |
|
RJ01 | Rejection of invention patent application after publication |