具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
图1是本申请所述一种模糊查询方法实施例的流程示意图。虽然本申请提供了如下述实施例或附图所示的方法操作步骤或装置结构,但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者部分合并后更少的操作步骤或模块单元。在逻辑性上不存在必要因果关系的步骤或结构中,这些步骤的执行顺序或装置的模块结构不限于本申请实施例或附图所示的执行顺序或模块结构。所述的方法或模块结构的在实际中的装置、服务器或终端产品应用时,可以按照实施例或者附图所示的方法或模块结构进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境、甚至包括分布式处理、服务器集群的实施环境)。
具体的一种实施例如图1所示,本申请提供的一种模糊查询方法的一种实施例中,所述方法可以包括:
S1:提供单字符倒排索引,所述单字符倒排索引包括将文档分割为单个字符后存入倒排索引构建生成。
S2:获取查询字符串,将所述查询字符串分割为单个字符,以所述单个字符作为词组在所述单字符倒排索引中进行词组匹配方式查询。
本实施例提供的模糊查询方法,基于将模糊查询问题转化为单个字符的词组匹配问题的思想,结合倒排索引构建单字符倒排索引。在进行模糊查询时,将查询字符串进行分割成单个字符,然后可以按照词组匹配的方式进行查询。具体的实现过程中,可以预先将字典库中的多个文档分别按照单个字符分割,以倒排索引的方式存储起来,构建本实施例所述的单字符倒排索引。
所述的倒排索引通常是指建立的索引中保持有每个值到文档的映射关系。倒排索引在实际应用中需要根据属性的值来查找记录。倒排索引中的索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。一般的,带有倒排索引的文件可以称为倒排索引文档,或倒排文件。倒排索引中通常包括倒排字典(或称为倒排列表)、倒排链(或称为反向索引、置入档案或反向档案)。常规的倒排列表用来记录有哪些文档包含了某个单词,而本申请使用的倒排列表可以用来记录哪些文档中包含了哪些单个字符。倒排链在本实施例中主要被用来存储在全文搜索下某个单个字符(现有的是存储某个词组)在一个文档或者一组文档中的存储位置的映射。
在本申请实施例中,可以以单个字符为倒排字典、单个字符在对应在文档中的位置为倒排链构建生成所述单字符倒排索引。所述的单字符倒排索引的构建主要包括将文档切割分成单个字符,每个单个字符存入倒排索引中。例如一个示例中,可以将“hello”分割成“h”、“e”、“l”、“o”,按照倒排索引的数据结构存储。在模糊搜索中,通常将查询的字典库中的一个词称为一个文档,如“hello”是一个文档、“how are you”也可以是一个文档等。
本实施例的一种实施方式中,所述倒排索引中可以记录文档编号和单个字符的具体位置,并且按照有序方式排列。具体的所述模糊查询方法的一种实施例中,所述单字符倒排索引中可以记录所述文档的编号和所述文档中每个单个字符在所述文档中的位置信息。
参照上述提供的单字符倒排索引的生成方式,在进行查询时,同样可以将查询字符串分割成单个字符,以所述单个字符作为词组在所述单字符倒排索引中进行词组匹配方式查询。例如一个示例中,查询字符串为“elo”,则获取该查询字符串后,将其分割成“e”、“l”、“o”三个单个字符,每个单个字符作为一个词组,按照词组匹配的方式在所述单字符倒排索引中进行查询。
所述的词组匹配是一种短语查询方式,如使用phrase query查询语句实现。常规的词组匹配方式中可以包括精确匹配、短语匹配等等,如一种短语精确匹配的方式中,当查询的对象中完全包含搜索的关键词并且包含的部分与关键词完全一致时才在搜索结果中显示出来。而精确匹配是搜索的关键词和查询的对象一摸一样的时候才在搜索结果中显示出来。在本申请实施例中,由于使用了上述的单个字符倒排索引,倒排字典中的每个对象都是最小搜索单个的单个字符,而查询的对象,即被分割成的那个字符的查询字符串也是最小搜索单位的单个字符,因此所述的词组匹配方式查询可以理解为使用词组匹配的查询算法或远离,但具体的匹配中处理的匹配对象是单个字符。或者,可以理解为词组匹配方式中的短语精确匹配的方式,这里的短语为单个字符的形式进行查询处理。
本申请提供的一种模糊查询方法,通过将词切割成单个字符,查询颗粒小,因此可以支持任意长度的模糊查询,提高查询精度高。在本申请中,可以基本现有IR系统现有的词组匹配算法,极少的工作量即可简单、快速构建索引。本申请实施方案将模糊查询问题转化为了单个字符的词组匹配问题,大大降低了实现难度和复杂度,并且查询速度优于k-gram的后过滤,索引大小也远小于常规的轮排索引,大大提高索引系统处理性能。
本申请所述方法的其他应用场景中,需要查询的查询字符串可以包括相同的单个字符,如查询字符串“ello”中包括连续两个单个字符“l”。本申请提的一种处理方式中,当所述查询字符串包含重复的单个字符时,可以基于所述重复的单个字符在所述查询字符串出现位置的顺序进行词组匹配方式查询。
如当查询“ello”时,可以先确定e的第一次出现的位置,然后从e后面出现的位置找第一次l出现的位置,再找l后面的第二个l出现的位置,最后在单字符倒排索引中找到l后面的o。经过词组匹配,符合上述各个字符出现位置顺序的文档即可被匹配查询出来。
具体的一个示例中,例如索引字典现有如下4个文档:
1:hello
2:heao
3:hallo
4:ello
则在构建单字符倒排索引处理中,将上述4个文档进行单个字符分割后构建的索引如图2所示,图2为本申请所述方法构建的一种单字符倒排索引示意图,其中倒排链的数据结构为<docId,position>。
假设需要模糊查询的查询字符串为“ello”。则利用词组匹配查询,查询“ello”,具体查询的伪代码如图3所示,图3是本申请所述方法中进行模糊查询的一个伪代码实现示意图。其中,“next”表示为在倒排链中找到的当前位置在下一个出现位置的函数,“<-”为赋值符号。
通过运行上述示意的伪代码即可得到文档编号为1和4的模糊查询结果。
所述方法的另一种应用场景中,若判断出查询字符串分割的单个字符不在所述单字符倒排索引的同一个文档中,或者所述查询字符串相邻两个单个字符的距离大于单字符倒排索引中文档的个数,则确定当前查询的文档与所述查询字符串不匹配。
还是如上述所述的示例中,在所述单字符倒排索引中可以先确定e的第一次出现的位置,然后从e后面出现的位置找第一次l,再找l后面的l,再找l后面的o。如果单个字符o和e不在一个文档中或者距离大于4,那么此时可以认为不匹配。如果不匹配,则可以从e上次出现的位置继续向后查找。如果等于4则可以认为属于匹配的范畴。
本申请提供的一种模糊查询方法,通过将词切割成单个字符,查询颗粒小,因此可以支持任意长度的模糊查询,提高查询精度高。在本申请中,可以基本现有IR系统现有的词组匹配算法,极少的工作量即可简单、快速构建索引。本申请实施方案将模糊查询问题转化为了单个字符的词组匹配问题,大大降低了实现难度和复杂度,并且查询速度优于k-gram的后过滤,索引大小也远小于常规的轮排索引,大大提高索引系统处理性能。
基于上述所述的模糊查询方法,本申请还提供一种模糊查询装置。所述的装置可以包括使用了本申请所述方法的系统(包括分布式系统)、软件(应用)、模块、组件、服务器、客户端等并结合必要的实施硬件的装置。基于同一创新构思,本申请提供的一种实施例中的装置如下面的实施例所述。由于装置解决问题的实现方案与方法相似,因此本申请具体的装置的实施可以参见前述方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。具体的,图4是本申请提供的一种模糊查询装置实施例的模块结构示意图,如图4所示,所述装置可以包括:
单字符倒排索引模块101,可以用于存储构建的单字符倒排索引,所述单字符倒排索引包括将文档分割为单个字符后存入倒排索引构建生成;
查询模块102,可以用于获取查询字符串,将所述查询字符串分割为单个字符,以所述单个字符作为词组在所述单字符倒排索引中进行词组匹配方式查询。
如前述方法实施例中,所述装置的一种实施方式中所述单字符倒排索引中记录所述文档的编号和所述文档中每个单个字符在所述文档中的位置信息。
本申请提供的模糊查询方法可以在计算机中由处理器执行相应的程序指令来实现。具体的,本申请提供的一种模糊查询装置的另一种实施例中,所述装置可以包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现:
获取查询字符串,将所述查询字符串分割为单个字符,以所述单个字符作为词组在所述单字符倒排索引中进行词组匹配方式查询,所述单字符倒排索引包括将文档分割为单个字符后存入倒排索引构建生成。
如前述方法实施例中,所述装置的一种实施方式中所述单字符倒排索引中记录所述文档的编号和所述文档中每个单个字符在所述文档中的位置信息。
本申请提供的一种模糊查询装置,通过将词切割成单个字符,查询颗粒小,因此可以支持任意长度的模糊查询,提高查询精度高。在本申请中,可以基本现有IR系统现有的词组匹配算法,极少的工作量即可简单、快速构建索引。本申请实施方案将模糊查询问题转化为了单个字符的词组匹配问题,大大降低了实现难度和复杂度,并且查询速度优于k-gram的后过滤,索引大小也远小于常规的轮排索引,大大提高索引系统处理性能。
本申请上述实施例所述的方法或装置可以通过计算机程序实现业务逻辑并记录在存储介质上,所述的存储介质可以计算机读取并执行,实现本申请实施例所描述方案的技术效果。因此,本申请还提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时可以实现以下步骤:
提供单字符倒排索引,所述单字符倒排索引包括将文档分割为单个字符后存入倒排索引构建生成;
获取查询字符串,将所述查询字符串分割为单个字符,以所述单个字符作为词组在所述单字符倒排索引中进行词组匹配方式查询。
所述计算机可读存储介质可以包括用于存储信息的物理装置,通常是将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。本实施例所述的计算机可读存储介质有可以包括:利用电能方式存储信息的装置如,各式存储器,如RAM、ROM等;利用磁能方式存储信息的装置如,硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘;利用光学方式存储信息的装置如,CD或DVD。当然,还有其他方式的可读存储介质,例如量子存储器、石墨烯存储器等等。
上述所述的装置或方法或计算机可读存储介质可以用于多种模糊查询的系统中,将模糊查询问题转化为了单个字符的词组匹配问题,大大降低了查询系统中查询算法的实现难度和复杂度,并且可以提高查询效率、降低编码量,提升系统处理性能。具体的,本申请提供一种模糊查询系统,包括存储单字符倒排索引的存储单元、处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现:
获取查询字符串,将所述查询字符串分割为单个字符,以所述单个字符作为词组在所述单字符倒排索引中进行词组匹配方式查询,所述单字符倒排索引包括将文档分割为单个字符后存入倒排索引构建生成。
需要说明的,上述所述的装置或计算机存储介质或系统根据方法实施例的描述还可以包括其他的实施方式,例如当所述查询字符串包含重复的单个字符时,基于所述重复的单个字符在所述查询字符串出现位置的顺序进行词组匹配方式查询等,具体的实现方式可以参照方法实施例的描述,在此不作一一赘述。
本申请提供的一种模糊查询方法、装置及查询系统,通过将词切割成单个字符,查询颗粒小,因此可以支持任意长度的模糊查询,提高查询精度高。可以基本现有IR系统现有的词组匹配算法,极少的工作量即可简单、快速构建索引。本申请实施方案将模糊查询问题转化为了单个字符的词组匹配问题,大大降低了实现难度和复杂度,并且查询速度优于k-gram的后过滤,索引大小也远小于常规的轮排索引,大大提高索引系统处理性能。
尽管本申请内容中提到构建倒排索引结构、文档字符分割方式等之类的数据构建、获取、交互、计算、判断等描述,但是,本申请并不局限于必须是符合行业通信标准、标准数据库、计算机处理和标准算法规则或本申请实施例所描述的情况。某些行业标准或者使用自定义方式或实施例描述的实施基础上略加修改后的实施方案也可以实现上述实施例相同、等同或相近、或变形后可预料的实施效果。应用这些修改或变形后的数据获取、存储、判断、处理方式等获取的实施例,仍然可以属于本申请的可选实施方案范围之内。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
虽然本申请提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或终端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。