CN102819606B

CN102819606B - 基于拼音的信息查询方法、系统和服务器

Info

Publication number: CN102819606B
Application number: CN201210296944.9A
Authority: CN
Inventors: 郭会; 孙志伟; 刘宇鉴; 王强; 孙建平; 蔡钊; 许国平; 王小强; 方志; 赵瑞; 孙伟; 孟曦; 关博; 王珂; 李湘宜
Original assignee: Agricultural Bank of China
Current assignee: Agricultural Bank of China
Priority date: 2012-08-20
Filing date: 2012-08-20
Publication date: 2015-06-03
Anticipated expiration: 2032-08-20
Also published as: CN102819606A

Abstract

本发明公开了一种基于拼音的信息查询方法、系统和服务器，涉及数据库技术领域。该查询方法包括：根据输入的拼音查询内存中的两层以上哈希索引结构获得候选项，两层以上哈希索引结构根据从数据库中读入内存的查询字段短语的拼音、主键构建，查询字段短语的拼音包括短语的全拼音、首字母或模糊拼音；基于对候选项的选择确定选中候选项的主键；根据选中候选项的主键从数据库获得查询信息。本发明的技术方案在统一框架下，支持中文、中文拼音、首字母、模糊音等多种查询方式，通过动态和静态结合的哈希索引结构，达到了效率提升与减少索引占用内存的效果；而通过携带短语主键以及其限制信息，减少了数据库后续查询时间，提高了整个应用效率。

Description

基于拼音的信息查询方法、系统和服务器

技术领域

本发明涉及数据库技术领域，特别涉及一种基于拼音的信息查询方法、系统和服务器。

背景技术

在信息系统查询中，通常需要输入一些信息或短语来进行检索。如在信息系统中要查询某个用户的个人资料，通常需要输入该用户的姓名；如要检索某个机构的信息，则需要输入该机构的名称。对于信息系统的人员查询界面，当要检索某机构的全部人员名单时，通常有两种方式：A、按照树形结构方式浏览机构列表，然后找到该机构；B、直接在输入框中输入机构名称，通过系统找到该机构。当机构较多时，A方式需要用户进行多次选择和查找，而B方式可以使用户较方便地查询到需要的机构。通常来说，B方式的信息系统查询，也有多种不同的实现方式，具体介绍如下。

完整输入的查询：部分信息系统需要完整输入所要求的短语字符。例如，要查询“李四”的人员情况，需要完整输入“李四”2个汉字。当用户需要频繁进行查询操作时，则输入量较大，不便于用户使用。

基于提示的查询方法：目前大多数信息系统都采用输入提示的方式来进行短语输入，即当用户输入部分汉字后，系统从后台数据库检索包含该部分汉字的所有待输入项，以列表形式返回给用户进行选择。如图1所示，当用户在输入框中输入“李”后，系统从后台数据表检索到“李四”、“李一”等汉字短语，返回给用户。输入提示部分解决了完整输入的输入量大问题，但是该方法也存在一些不足：输入量仍然较大，对于大多数中文用户而言，多数使用拼音输入法进行汉字输入，即使键入汉字数量减少，但每个汉字仍然需要键入多个字母(汉字拼音)；每次都从后台数据库进行汉字检索，效率较低，因为汉字所在字段往往不包含索引，且其检索语句往往使用“like(相似)”等匹配方式，数据库检索本身效率较低；每次改变输入均连接一次数据库，效率较低。

基于拼音的查询方式：目前部分信息系统采用基于拼音的输入提示的方式来加快短语查询，即允许用户输入拼音、拼音首字母来进行快速输入。如导航仪对地址的输入，机票网站、火车售票系统对地点的输入。

基于数据库的拼音输入查询方式属于基于拼音的查询方式。基于数据库的拼音输入查询方式在数据库的数据表中保存查询字段的拼音，当用户输入拼音后，查询拼音字段符合输入拼音要求的相应查询字段的值，该方法由于每次需要检索数据库，效率较低，实现方式如图2所示，其中，由用户输入拼音LS(步骤21)，页面提交到后台数据库进行查询(步骤22)，数据库检索到拼音以LS开头的所有短语后，返回给前台页面(步骤23)，前台页面将数据库返回信息构成为下拉框(步骤24)，用户在下拉框中进行选择(步骤25)，页面根据用户选择再去查询数据库(步骤26－步骤27)，并将结果返回前台页面(步骤28)。从图2中可知，最少两次访问数据库。如果用户输入的字母较长，则可能有更多次的访问。通常来说，数据库访问是比较慢的，效率较低。

如何能够让用户更快速的查询到后台数据库中的中文短语，更快速的获取到该短语所在数据库记录的信息，是本领域需要解决的技术问题。

发明内容

本发明的发明人发现上述现有技术中存在问题，并因此针对所述问题中的至少一个问题提出了一种新的技术方案。

本发明的一个目的是提供一种用于基于拼音的信息查询的技术方案。

根据本发明的第一方面，提供了一种基于拼音的信息查询方法，包括：根据输入的拼音查询内存中的两层以上哈希索引结构获得候选项，所述两层以上哈希索引结构根据从数据库中读入内存的查询字段短语的拼音、主键构建，每项的值包括主键，所述查询字段短语的拼音包括短语的全拼音、首字母或模糊拼音；基于对所述候选项的选择确定选中候选项的主键；根据所述选中候选项的主键从所述数据库获得查询信息。

可选地，该方法还包括从所述数据库读入内存的所述查询字段短语的限制值，所述候选项包括所述限制值。

可选地，该方法还包括：将所述查询字段短语和限制值、主键从所述数据库读入内存。

可选地，两层以上哈希索引结构为静态索引结构和动态索引结构相结合的两层以上哈希索引结构。

可选地，两层以上哈希索引结构的第一层索引结构为与26个字母对应的静态索引结构。

可选地，该方法还包括：用户输入的汉字转换为拼音。

根据本发明的另一方面，提供一种服务器，包括：候选项查询模块，用于根据输入的拼音查询内存中的两层以上哈希索引结构获得候选项，所述两层以上哈希索引结构根据从数据库中读入内存的查询字段短语的拼音、主键构建，每项的值包括主键，所述短语的拼音包括短语的全拼音、首字母或模糊拼音；主键确定模块，用于基于对候选项的选择确定选中候选项的主键；查询信息获取模块，用于根据所述选中候选项的主键从所述数据库获得查询信息。

可选地，该服务器还包括：索引建立模块，用于从所述数据库将所述查询字段短语、主键读入内存，根据从所述数据库中读入内存的查询字段短语的拼音、主键构建所述两层以上哈希索引结构。

可选地，数据库读取模块还用于从所述数据库读入所述查询字段短语的限制值，所述候选项包括所述限制值。

可选地，该服务器还包括：拼音转换模块，用于将用户输入的汉字转换为拼音，发送给所述候选项查询模块。

根据本发明的又一方面，还提供一种基于拼音的信息查询系统，包括上述的服务器，以及数据库。

本发明的一个优点在于，能够让用户更快速的查询到后台数据库中的中文短语，更快速的获取到该短语所在数据库记录的信息。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同说明书一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1示出基于提示的查询方法的示意图。

图2示出基于数据库的拼音输入查询方式的过程示意图。

图3A示出两层以上哈希索引结构的示例。

图3B示出静态与动态哈希索引结构的示例。

图4示出本发明的基于拼音的信息查询方法的一个实施例的流程图。

图5示出本发明的基于拼音的信息查询方法的一个实施例的流程图。

图6示出本发明的基于拼音的信息查询方法的一个实施例的流程图。

图7示出一个双层哈希索引的示例。

图8示出本发明的基于拼音的信息查询方法的一个应用例的示意图。

图9示出本发明的服务器的一个实施例的结构图。

图10示出出本发明的服务器的另一个实施例的结构图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

相关术语解释

全拼、拼音首字母、模糊音：对于给定的中文短语，对每个汉字的拼音组合称为全拼，对每个汉字的拼音第一个字母的组合称为拼音首字母。针对一些特别的发音习惯、按照一定规则进行转换的拼音称为模糊音。如“张三”的全拼是“zhangsan”，首字母是“zs”，按照南方平翘舌不分规则而言，其模糊音为“zangshan”。

数据库查询：数据库维护了一套索引机制，能够在对索引进行条件检索时候更加快速。

哈希(Hash)索引结构：哈希索引是对给定的数据进行散列的一种索引。为了理解，现举例说明，比如，目前有以英文字母组成的1000个单词，如果要在这1000个单词中查找某个单词，最简单的方法是对所有单词进行遍历。则最差情况需要对全部1000个单词进行比较，其算法复杂度为(O(n))。哈希索引就是找26个容器，26个容器分别编号为A-Z，将所有单词按照开头字母放入容器中，如[you]这个单词就放在[Y]容器中，[she]这个单词就放在[S]容器中。如果所有单词首字母是平均分布的，每个容器中应该有1000/26个单词，则当我们要查询某个单词时候，首先判断该单词在哪个容器中，再在该容器中查找，则只需要在1000/26个单词中找，其算法复杂度为(O(n/26))。示意图如表1所示：

表1

两层以上哈希索引结构：在每个容器中，对每个单词的第二个字母再建立26个容器，示意图如图3A所示。则如果所有单词首字母是平均分布的，每个容器中应该有1000/26个单词，则当要查询某个单词时候，首先判断该单词在哪个容器中，然后再在该容器中查找第二个字母所在的容器，则只需要在1000/26/26个单词中找，其算法复杂度为(O(n/26/26))。

静态与动态哈希索引结构：如图3B所示，总共包含26个大容器，大容器中包含26个小容器，每个大容器中包含的小容器数量都是相等的，则类似情况称为静态哈希索引。但是，有些组合可能不存在单词，比如"ZZ"、"AA"等。如图3B所示，每个大容器中仅仅包含存在的第二个字母，则该索引成为动态哈希索引。

如图4所示，步骤402，根据输入的拼音查询内存中的两层以上哈希索引结构获得候选项，该两层以上哈希索引结构根据从数据库中读入内存的查询字段短语的拼音、主键构建，查询字段短语的拼音包括短语的全拼音、首字母或模糊拼音。用户输入要查询短语的拼音，或者用户输入要查询短语，将用户输入的要查询短语转换为拼音。根据从数据库读入内存的查询字段短语的拼音构建该两层以上哈希索引结构，每项的值包括主键。

步骤404，基于对候选项的选择确定选中候选项的主键。当只有一个候选项时，则该候选项为选中候选项；当存在多个候选项时，可以提示用户从中选择，用户选择的候选项为选中候选项。在一些情况下，根据候选项的限制条件可以从多个候选项中自动确定选中候选项。

步骤406，根据选中候选项的主键从数据库获得查询信息。相对于通过选中候选项的查询字段去查询数据库，根据主键查询数据库，可以充分利用数据库的数据表索引，检索效率高。

现有技术中，很多信息查询系统不能完全支持全拼、首字母拼音、模糊拼音、多音字查询；对于有些信息查询系统，虽然支持拼音首字母、全部拼音查询方式，但往往界面不统一，需要用户选择是输入全部拼音或者是首字母，影响了查询效率；此外，有些信息查询系统在界面上统一了全拼和首字母拼音查询，但其后台索引也没有统一，往往使用两套索引来进行，影响了查询效率；而且，很多应用系统未支持模糊音和多音字，造成用户使用不便。

当前部分系统在建立索引时候，采用排序数组、通过二分查找的方式来进行查询。当短语较长、特别是存在多音字情况下，数组将会特别大，查询效率低；同时，每次查询都要进行字符串比较，在字符串较长情况下，比较效率更低，因此，内存索引效率不高。

上述实施例中，将中文短语首字母、全拼以及模糊音都构建到索引，用户可以通过统一界面输入短语首字母、全拼以及模糊音，方便了用户的使用，提高了检索效率；索引采用了动态和静态相结合的两层以上哈希索引结构，检索效率更高。

图5示出本发明的基于拼音的信息查询方法的另一个实施例的示意图。

如图5所示，步骤501，从数据库中读入关键数据到内存，该关键信息包括每项的查询字段短语和主键，还可以包括一些其他限制性信息，将查询字段短语转换为拼音，在内存中构建两层以上哈希索引结构。

步骤502，用户通过查询页面输入，输入可以是待查询短语的全拼、拼音首字母或者模糊音，也可以是待查短语汉字，服务器端将其汉字转为拼音。

步骤503，查询页面将用户输入提交给内存，通过内存中的两层以上哈希索引结构查询匹配的数据项，获得候选项。

步骤504，内存将查询得到的候选项发送给查询页面。

步骤505，查询页面将候选项提示给用户。

步骤506，用户对候选项进行选择，从而确定选中候选项。

步骤507，页面根据选中候选项的主键查询数据库。

步骤508，数据库将根据主键检索获得的查询结果返回给查询页面。

现有的查询方法中，在获取到候选项后，仍然要通过查询字段再次去查询数据库，如图5中，当用户获取到中文选项后，步骤507-508中，往往直接检索中文短语字段等于用户选择的值，无法利用到数据表索引，数据库查询效率不高，检索效率低。上述实施例中，直接利用主键检索数据库，检索效率高。

图6示出本发明的基于拼音的信息查询方法的另一个实施例的流程图。

如图6所示，步骤602，从数据库中读入每一项的关键数据到内存。从数据库中按照查询字段排序，将主键、查询字段等关键信息读出来。如下表2中，读出的字段包括ID(标识)、Name(名称)和OrgName(机构名称)，并将其拼接为QueryString(查询串)。

ID	Name	OrgName	QueryString
				02	王四	一部	王四/一部-02
04	王一	二部	王一/二部-04
				03	王强	三部	王强/三部-03
01	张三	四部	张三/四部-01
				05	张三	五部	张三/五部-05

表2

步骤604，将查询字段的汉字转换为拼音。对Name字段每个中文短语进行处理，如[王强]的拼音为[wangqiang]、[wangjiang]，拼音首字母为[wq]、[wj]。对于如何对汉字转拼音，有多种实现方法，如直接调用Windows的函数、通过拼音汉字对照表等，此处不进行具体的介绍和说明。

步骤606，建立内存哈希索引数据结构。内存哈希索引数据结构采用多层哈希索引。为简便起见，以上表中“王强/三部-03”为例进行介绍，图7是一个双层哈希索引，第一层是从A-Z的26个字母，第二层是从第一层派生出来，第一层中的每个字母对应了第二层中的26个字母。不在层中的节点[ngqiang]、[ngjiang]，称为后缀节点；第一层和第二层的节点称为前缀节点，由后缀节点向上追述到第一层节点后，逆序获得的字符串即可构成了拼音和英文。如后缀节点[ngqiang]，依次向上追述为[a][w]，则其逆序组合为[wangqiang]，即为“王强/三部-03”所代表的[王强]的拼音。

步骤608，将数据项插入哈希索引结构节点。对于[王强]的首字母[wq]，在图7的索引第一层定位到字母[W]，在与[W]对应的第二层26个字母中定位[Q]。在第二层的[Q]有序(所有增加的后缀节点是按照节点有序排列的)增加后缀节点[空]，并使得该节点指向[王强/三部-03]。

步骤610，哈希索引结构层数确定。为了描述简单，仅仅讨论了两层的索引结构，如图7所示，第一层中的节点[W]在第二层中有26个节点与其对应。但在实际应用中，如果是多层节点，比如是3层节点，则总共在第三层包括约17000个(26的3次方)节点。索引层数的确定方式是：根据待查询的纪录数，求以26为底的对数向下取整-1。比如，纪录数如果是26*26个，则其层数设定为1层，如果是26*26*26*26(超过300万个)，则可以设定为3层。这样处理后，如果按照平均分布，每个最后一层节点将含有26个后缀节点。

步骤612，动态索引结构确定。如上所计算的3层结构，需要占据17000个内存空间，对内存占用量较大，但是实际上很大部分节点没有后缀节点。为了节约内存空间，采用静态与动态结合的哈希索引的结构，第一层适用静态索引，其他层适用动态索引。

步骤614，内存短语查找。如果用户输入一个[W]，则在第一层找到[W]。然后定位到[W]对应的第二层，从这些第二层的后缀中选择n个(假设每次最多选择n个候选项)，就将[Wangqiang]和[Wangjiang]选择出来。如果用户再键入[q]字母，则当前字母为[WQ]。首先定位到第一层的[W]，然后在[W]多对应的第二层中找到[Q]，将[Q]的n个后缀作为候选项，则候选项目为[王强/三部-03]。如用户再键入[S]字母，则当前字母为[WQS]，在[Q]的后缀中找不到[S]，则无候选项目。当后缀节点有多个选项时，则按照二分查找的方法来找到与输入字符相等或最相近的后缀节点(因为后缀节点是有序的)。

步骤616，候选项结果去重复。经过短语查找后，会给定一批候选项。但是候选项中有重复情况，如输入[W]可以有两个指向[王强/三部-03]的后缀，则需要进行去重复，在数据量较小情况下，使用一般的遍历去重即可。

步骤618，查询结果字符生成。采用的字符方法是“Name/OrgName-ID”。通过用户名称和机构名称，用户可以便捷获取到提示的信息；通过ID，传递到后台后，就不需要再对后台人员信息表进行查询(即查询姓名为某某某的字段)，效率提高。

如图8所示，步骤801，服务器初始化。包括从数据库中读取字段，包括主键值ID01/ID02、姓名张三/章四、所在部门一部/二部等；将短语汉字转换为拼音，在服务器内存中建立如图所示的哈希索引结构。

步骤802，客户端输入。用户通过客户端的输入界面输入例如“张”或者“Z”。

步骤803，服务器查询。如果输入的是汉字“张”，则执行汉字转拼音“zhang”；根据输入的拼音执行服务器内存的哈希索引结构检索，获得候选项：张三/一部-ID01，章四/二部-ID02。

步骤804，将候选项通过界面提示给用户，用户对候选项进行选择，选中候选项为张三/一部-ID01。

步骤805，根据选中的候选项的主键ID01进行数据库查询。

通过上文中各个实施例的描述可以看出，本文的实施例在统一框架下，支持中文、中文拼音、首字母、模糊音等多种方式查询；此外，通过动态和静态结合的哈希索引结构，达到了效率提升与减少索引占用内存的效果；而通过携带短语主键以及其限制信息，减少了数据库后续查询时间，提高了整个应用效率。

图9示出本发明的服务器的一个实施例的结构图。如图9所示，该服务器包括：候选项查询模块91，根据输入的拼音查询内存中的两层以上哈希索引结构获得候选项，该两层以上哈希索引结构根据从数据库中读入内存的查询字段短语的拼音、主键构建，该短语的拼音包括短语的全拼音、首字母或模糊拼音；主键确定模块92，基于对候选项的选择确定选中候选项的主键；查询信息获取模块93，根据选中候选项的主键从数据库获得查询信息。其中，该两层以上哈希索引结构为静态索引结构和动态索引结构相结合。在一个实施例中，该两层以上哈希索引结构的第一层索引结构为与26个字母对应的静态索引结构。

图10示出本发明的服务器的另一个实施例的结构图。如图10所示，该服务器包括候选项查询模块91、主键确定模块92和查询信息获取模块93。可选地，还包括索引建立模块101、拼音转换模块102。其中，索引建立模块101，从数据库将查询字段短语、主键读入内存，根据从数据库中读入内存的查询字段短语的拼音、主键构建两层以上哈希索引结构。在一个实施例中，索引建立模块101还从数据库读入查询字段短语的限制值，候选项包括限制值。拼音转换模块102，用于将用户输入的汉字转换为拼音，发送给候选项查询模块。

本公开实施例的技术方案，提供了一种通过中文、全拼音、首字母、模糊拼音快速信息查询的方法，采用适用于快速检索的动态和静态结合的内存哈希索引，提高了检索效率；通过构建的索引携带短语所在记录的主键以及限制信息，在不改变用户操作习惯的基础上，减少数据库查询次数，提高查询效率。

至此，已经详细描述了根据本发明的基于拼音的信息查询方法和系统。为了避免遮蔽本发明的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

可能以许多方式来实现本发明的方法和系统。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员应该理解，可在不脱离本发明的范围和精神的情况下，对以上实施例进行修改。本发明的范围由所附权利要求来限定。

Claims

1.一种基于拼音的信息查询方法，其特征在于，包括：

根据输入的拼音查询内存中的两层以上哈希索引结构获得候选项，所述两层以上哈希索引结构根据从数据库中读入内存的查询字段短语的拼音、主键构建，每项的值包括主键，所述查询字段短语的拼音包括短语的全拼音、首字母或模糊拼音；所述两层以上哈希索引结构为静态索引结构和动态索引结构相结合的两层以上哈希索引结构；

基于对所述候选项的选择确定选中候选项的主键；

根据所述选中候选项的主键从所述数据库获得查询信息。

2.根据权利要求1所述的方法，其特征在于，还包括：

从所述数据库读入内存所述查询字段短语的限制值，所述候选项包括所述限制值。

3.根据权利要求2所述的方法，其特征在于，还包括：

将所述查询字段短语和限制值、主键从所述数据库读入内存。

4.根据权利要求3所述的方法，其特征在于，还包括：

当存在多个候选项时，根据候选项的限制值从多个候选项中确定所述选中候选项。

5.根据权利要求4所述的方法，其特征在于，所述两层以上哈希索引结构的第一层索引结构为与26个字母对应的静态索引结构。

6.根据权利要求1所述的方法，其特征在于，还包括：

将用户输入的汉字转换为拼音。

7.一种服务器，其特征在于，包括：

候选项查询模块，用于根据输入的拼音查询内存中的两层以上哈希索引结构获得候选项，所述两层以上哈希索引结构根据从数据库中读入内存的查询字段短语的拼音、主键构建，每项的值包括主键，所述短语的拼音包括短语的全拼音、首字母或模糊拼音,所述两层以上哈希索引结构为静态索引结构和动态索引结构相结合的两层以上哈希索引结构；

主键确定模块，用于基于对候选项的选择确定选中候选项的主键；

查询信息获取模块，用于根据所述选中候选项的主键从所述数据库获得查询信息。

8.根据权利要求7所述的服务器，其特征在于，还包括：

索引建立模块，用于从所述数据库将所述查询字段短语、主键读入内存，根据从所述数据库中读入内存的查询字段短语的拼音、主键构建所述两层以上哈希索引结构。

9.根据权利要求8所述的服务器，其特征在于，所述索引建立模块还用于从所述数据库读入所述查询字段短语的限制值，所述候选项包括所述限制值。

10.根据权利要求7所述的服务器，其特征在于，所述两层以上哈希索引结构的第一层索引结构为与26个字母对应的静态索引结构。

11.根据权利要求7所述的服务器，其特征在于，还包括：

拼音转换模块，用于将用户输入的汉字转换为拼音，发送给所述候选项查询模块。

12.一种于拼音的信息查询系统，其特征在于，包括如权利要求7-11中任意一项所述的服务器，以及数据库。