CN111026787A

CN111026787A - 网点检索方法、装置及系统

Info

Publication number: CN111026787A
Application number: CN201911153156.2A
Authority: CN
Inventors: 陈思佳
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2020-04-17

Abstract

本发明提供了一种网点检索方法、装置及系统，该方法包括：获取网点的分词信息、查询词的分词信息和地址分级信息；地址分级信息包括已识别地址信息和待匹配地址等级信息；根据已识别地址信息和待匹配地址等级信息对网点的分词信息进行信息合并处理，得到网点分词结果；根据已识别地址信息和待匹配地址等级信息对查询词的分词信息进行信息合并处理，得到查询词分词结果；根据网点分词结果和查询词分词结果生成网点检索结果。本发明可以提高查询结果的正确率和查询的效率。

Description

网点检索方法、装置及系统

技术领域

本发明涉及信息检索技术领域，尤其是涉及一种网点检索方法、装置及系统。

背景技术

随着银行渠道协同理念的不断深入，电子银行与网点柜台渠道的协同互动日益凸显。诸如网点排队、纪念币预约、外币现钞预约、扫码取款、无卡取款等功能的推陈出新，解决了一个又一个的服务痛点、极大地提升了客户体验。这些功能的实现都依赖于银行网点检索这一环节。

现有的检索方案例如：(1)数据库模糊查询。查询语句如下：SELECT字段FROM表WHERE某字段Like条件其中，Like条件主要是作用于字符型字段，在一个字符型字段列中检索包含对应字符串。这里字符型字段可以是网点名称、地址等，Like条件为'％查询词％'。(2)字符串匹配算法。这里将名称、地址等网点信息以列表的形式加载到内存中，列表中的每一条记录都视为一个主串，如果主串中包含查询词，即视为匹配成功。

其中，(1)数据库模糊查询：通常情况下这种SQL(Structured Query Language，结构化查询语言)的写法(like前模糊查询)会导致索引失效，而进行全表扫描，在数据量大的情况下，查询效率较低。(2)字符串匹配算法：若主串中包含查询词，即视为匹配成功，如KMP(The Knuth-Morris-Pratt Algorithm，字符串匹配)算法等。但这种方法往往会误解客户的查询意图，如查询“1号楼”，会误匹配上“11号楼”、“甲1号楼”等，出现对查询词的理解歧义。因此，如何提升检索性能，成为了同业竞争的关键。

发明内容

本发明提供了一种网点检索方法、装置及系统，可以提高查询效率以及查询结果的正确率。

第一方面，本发明实施例提供了一种网点检索方法，该方法包括：获取网点的分词信息、查询词的分词信息和地址分级信息；所述地址分级信息包括已识别地址信息和待匹配地址等级信息；根据所述已识别地址信息和所述待匹配地址等级信息对所述网点的分词信息进行信息合并处理，得到网点分词结果；根据所述已识别地址信息和待匹配地址等级信息对所述查询词的分词信息进行信息合并处理，得到查询词分词结果；根据所述网点分词结果和所述查询词分词结果生成网点检索结果。

第二方面，本发明实施例还提供一种网点检索装置，该装置包括：获取模块，用于获取网点的分词信息、查询词的分词信息和地址分级信息；所述地址分级信息包括已识别地址信息和待匹配地址等级信息；第一合并模块，用于根据所述已识别地址信息和所述待匹配地址等级信息对所述网点的分词信息进行信息合并处理，得到网点分词结果；第二合并模块，用于根据所述已识别地址信息和待匹配地址等级信息对所述查询词的分词信息进行信息合并处理，得到查询词分词结果；检索模块，用于根据所述网点分词结果和所述查询词分词结果生成网点检索结果。

第三方面，本发明实施例还提供一种网点检索系统，该系统包括上述网点检索装置。

第四方面，本发明实施例还提供一种计算机设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述网点检索方法。

第五方面，本发明实施例还提供一种具有处理器可执行的非易失的程序代码的计算机可读介质，所述程序代码使所述处理器执行上述网点检索方法。

本发明实施例带来了以下有益效果：本发明实施例提供了一种网点检索方案，该方案首先获取网点的分词信息、查询词的分词信息和地址分级信息，地址分级信息包括已识别地址信息和待匹配地址等级信息，通过已识别地址信息和待匹配地址等级信息，分别对网点的分词信息和查询词的分词信息进行信息合并处理，从而，得到分词准确率更高的网点分词结果和查询词分词结果，最后，基于网点分词结果和查询词分词结果生成网点检索结果。本发明实施例可以提高查询结果的正确率和查询的效率。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的网点检索方法流程图；

图2为本发明实施例提供的网点检索方法实施流程示意图；

图3为本发明实施例提供的一种网点检索装置结构框图；

图4为本发明实施例提供的另一种网点检索装置结构框图；

图5为本发明实施例提供的另一种网点检索装置结构框图；

图6为本发明实施例提供的计算机设备结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，常用的检索方案还包括：基于倒排索引的检索方法。正向索引(forwardindex)标记的是一篇文档中出现了哪些关键词，倒排索引(inverted index)标记的是一个关键词出现在了哪些文档中。这里的网点名称、地址等即为一个个文档，通过倒排索引，即可获取查询词指向的所有文档，然后返回结果。

对于上述基于倒排索引的检索方法。文档索引一般建立分词的基础上，分词的准确率对检索结果有较大的影响。此外，该方法采用的是精确匹配查询词，没有考虑到拼写错误这种常见问题，致使客户无法查询到结果。

基于此，本发明实施例提供的一种网点检索方法、装置及系统，较传统的数据库模糊查询，有着较高的检索效率；同时克服了通用搜索引擎的缺点：结合地址规则，改进地名分词的准确性，以提高查询结果的正确率。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种网点检索方法进行详细介绍。

本发明实施例提供了一种网点检索方法，参见图1所示的一种网点检索方法流程图，该方法包括以下步骤：

步骤S102，获取网点的分词信息、查询词的分词信息和地址分级信息。

在本发明实施例中，网点的分词信息是指利用分词方法预先对网点信息进行分词处理，得到的分词结果，查询词的分词信息是指利用分词方法预先对查询词信息进行分词处理，得到的分词结果。地址分级信息是指预先处理好的地址分类分级的信息。地址分级信息包括已识别地址信息和待匹配地址等级信息。其中，已识别地址信息可以为地名、机构团体或其他专名的专有名词；待匹配地址等级信息包括按行政区划的等级划分的地址等级信息，例如，可以包括：省/市/自治区/直辖市、区、路/街/巷、号/门/楼/栋、层、室。

步骤S104，根据已识别地址信息和待匹配地址等级信息对网点的分词信息进行信息合并处理，得到网点分词结果。

在本发明实施例中，网点的分词信息可以以文档的形式存储，包括不同级别的地址信息以及网点名称信息，例如，网点的分词信息可以为“中国银行/nt北京/ns上地/ns支行/n，北京市/ns海淀区/ns上地/ns信息/n中/b路/n 19/m号/q一/m层/q 104/m”。已识别地址信息是预先识别并标记好的无需再进行合并处理的信息，例如，可以为“中国银行”等。待匹配地址等级信息包括地址等级信息，例如“巷”、“门”或“室”等信息。

在进行合并处理时，根据待匹配地址等级信息，可以确定处理顺序，例如按照等级信息从高到低进行合并，则可以依次将省/市/自治区/直辖市、区、路/街/巷、号/门/楼/栋、层、室等各个级别的信息进行优化。每一级的优化，对已识别出的量词(q)，匹配可以合并的前缀，对于不同等级的信息，不再进行合并。对于上述网点地址，优化后可以得到的网点分词结果为：“中国银行/nt北京/ns上地/ns支行/n，北京市/ns海淀区/ns上地/ns信息中路/ns 19号/mq一层/mq 104/m”。

需要说明的是，对于待匹配地址等级信息，可以预先进行选择设置，例如，由于省市信息使用频率较高且包括的信息量较小，可以不将“省”、“市”等信息设置为待匹配地址等级信息，而是设置为已识别地址信息。另外，由于路/街/巷等信息中包括的信息量较大，以“路”为例，可以包括葆台路、保野公路、北辰东路、北辰路、北辰西路或贝多芬路等，涉及的名称查询或使用的频率较低，为了避免将更具体的路名、街名、楼号等切分粒度过细，可以将路/街/巷、号/门/楼/栋、层、室等信息设置为待匹配地址等级信息。信息合并处理主要是针对待匹配地址等级信息中涉及的量词的前缀进行合并处理，以提高分词的准确率。

步骤S106，根据已识别地址信息和待匹配地址等级信息对查询词的分词信息进行信息合并处理，得到查询词分词结果。

在本发明实施例中，对查询词的分词信息进行信息合并处理的过程类似于对网点的分词信息进行信息合并处理的过程，因此不再赘述。

步骤S108，根据网点分词结果和查询词分词结果生成网点检索结果。

在本发明实施例中，对网点的分词信息进行优化得到网点分词结果，对查询词的分词信息进行优化得到查询词分词结果，基于优化后的网点分词结果和查询词分词结果生成网点检索结果，可以提高检索效率以及检索结果的正确率。

本发明实施例提供了一种网点检索方案，该方案首先获取网点的分词信息、查询词的分词信息和地址分级信息，地址分级信息包括已识别地址信息和待匹配地址等级信息，通过已识别地址信息和待匹配地址等级信息，分别对网点的分词信息和查询词的分词信息进行信息合并处理，从而，得到分词准确率更高的网点分词结果和查询词分词结果，最后，基于网点分词结果和查询词分词结果生成网点检索结果。本发明实施例可以提高查询结果的正确率和查询的效率。

为了提高信息合并处理的效率，获取网点的分词信息、查询词的分词信息和地址分级信息之前，还可以执行如下步骤：

获取网点信息和查询词信息；对网点信息进行分词处理，得到网点的分词信息；对查询词信息进行分词处理，得到查询词的分词信息。

在本发明实施例中，网点信息包括网点名称、地址等信息，查询词信息是用户的查询指令。可以根据实际需要选择合适的分词处理方法，预先对网点信息和查询词信息分别进行分词处理，得到网点的分词信息和查询词的分词信息。

为了提高网点检索结果的生成效率，根据网点分词结果和查询词分词结果生成网点检索结果，可以按照如下步骤执行：

确定网点分词结果和查询词分词结果的匹配度；根据匹配度生成网点检索结果。

在本发明实施例中，网点检索的目的包括在多个网点分词结果中找到与查询词分词结果最相近的网点分词结果，通过匹配度描述网点分词结果和查询词分词结果之间的相似程度。

在得到匹配度之后，根据匹配度的值进行排序，并把排序结果中的一部分作为网点检索结果，例如，可以选择排在前N％的排序结果作为网点检索结果。例如，对于查询词(上地，信息中路)，检索结果排列如下：

中国银行北京上地支行，北京市海淀区上地信息中路19号一层104；

中国银行北京上地硅谷亮城支行，北京市海淀区农大南路1号院5号楼101号房。

为了保证匹配度的准确性，确定网点分词结果和查询词分词结果的匹配度，可以按照如下步骤执行：

根据预设的倒排索引确定网点分词结果中与查询词分词结果相关的目标网点分词结果；对目标网点分词结果进行向量化处理，得到文档向量；对查询词分词结果进行向量化处理，得到查询向量；根据空间向量模型计算查询向量和文档向量之间的匹配度。

在本发明实施例中，倒排索引是对所有网点名称、地址信息建立的，用于确定网点分词结果中与查询词分词结果相关的目标网点分词结果。将查询词进行分词以后，以向量的形式表示keyword＝(word1，word2，…)。例如，“上地信息中路”可表示为(上地，信息中路)。可以使用传统的向量空间模型(Vector Space Model，VSM)计算文档向量与查询向量之间的匹配度。通过倒排索引，获取查询词指向的所有文档，然后按匹配度倒序排列，返回结果。

具体的，一个特定的索引词k_i对于一个特定的文档d_j，有一个索引词的权重w_ij，文档d_j的向量表示d_j＝[w_1j，w_2j，…，w_mj]。另外，对于一个特定的查询q，索引词k_i的权重为w_iq，即q的向量表示q＝[w_1q，w_2q，…，w_mq]。在本发明实施例中，m是指筛选出的特征词的个数，j是指文档个数。每个文档均可以用多个索引词进行表示，且可以从多个索引词中筛选出多个特征词。根据向量夹角的余弦函数cos(q，d_j)计算q和d_j之间的相关性，即匹配度：

关于索引词的权重，即一个词对于表达文档特征的重要程度，本文采用TF-IDF计算方法，TF(Term Frequency)为词频，IDF(Inverse Document Frequency)为倒文档频度。对于索引词k_i和文档d_j，TF-IDF计算如下：

其中，freq_ij为k_i在d_j中出现的次数，MaxFreq_j为d_j中频度最高的索引词的出现次数；N为总的文档数量，n_i为包含索引词k_i的文档数量。对于查询词的权重，采用如下计算方式：

其中，freq_iq为k_i在q中出现的次数，MaxFreq_q为q中频度最高的索引词的出现次数。

考虑到由于拼写错误这种常见问题，致使客户无法查询到结果经常会出现，为避免这种问题，该方法还可以包括如下步骤：

判断网点检索结果是否为空值；如果是，对查询词的分词信息进行拼写校正。

拼写校正目的包括纠正拼写错误、推荐相似词。拼写错误通常是指用户输时输入了正确的拼音，但在选择拼音对应的汉字时发生了错误，例如将“西三旗”误写为“西三期”。另外，用户查找一个网点时，往往不能准确地知道对应的名称或地址，输入关键词以后，很可能想要查到与之相似的词，比如通过“信息路”搜索“信息中路”相关的词条。因此，为提高搜索引擎的召回率，本装置在初次检索结果将为空的情况下，触发拼写校正功能，对用户提供拼写建议。具体实现步骤如下：

a)维护一个地名词库，涵盖行政区划地名词库、路名、街道名等。

b)将词库中的词条映射成注音，如“西三旗”对应“xi san qi”。

c)对于用户的输入，检查它是否在词库中，如果词库中有这个词条，则直接返回原搜索结果；否则执行c1。

c1)遍历词库中所有词条的注音，寻找与查询词的注音相匹配的词条，作为纠错候选词。例如“西三期(xi san qi)”匹配“西三旗(xi san qi)”。如果匹配到，则执行d；否则执行c2。

c2)遍历词库中的词条，计算其与查询词之间的编辑距离，取编辑距离最短的词条，作为推荐候选词。例如通过“信息路”推荐相似词“信息中路”。如果存在相似词，则执行d；否则仍返回原搜索结果。

d)界面提示“您要搜索的是不是xxx xxx…”，根据用户采纳的拼写校正建议，重新检索，以返回最终结果。

本发明实施例提供了一种网点检索方法，参见图2所示的网点检索方法实施流程示意图，该方法基于倒排索引的检索方法，较传统的数据库模糊查询，有着较高的检索效率；同时克服了通用搜索引擎的缺点：结合地址规则，改进地名分词的准确性，以提高查询结果的正确率；引入地名词库，计算最短编辑距离，提供拼写校正功能，提升网点检索的召回率。

需要说明的是，分词器的评价指标包括准确率(Precision)、召回率(Recall)、F₁值(F₁score)。

由此可见，Precision越高越好，同时Recall也越高越好，但事实上这两者在某些情况下有矛盾的。F₁值为准确率和召回率的调和平均，使F₁值最大化，可以较好的平衡准确率和召回率。本发明实施例通过对分词结果进行优化，可以避免将路名、街名、楼号等切分粒度过细，在保证召回率的前提下，显著提高地名分词的准确率。

本发明实施例还提供一种网点检索装置，参见图3所示的一种网点检索装置结构框图，该装置包括：

获取模块31，用于获取网点的分词信息、查询词的分词信息和地址分级信息；地址分级信息包括已识别地址信息和待匹配地址等级信息；第一合并模块32，用于根据已识别地址信息和待匹配地址等级信息对网点的分词信息进行信息合并处理，得到网点分词结果；第二合并模块33，用于根据已识别地址信息和待匹配地址等级信息对查询词的分词信息进行信息合并处理，得到查询词分词结果；检索模块34，用于根据网点分词结果和查询词分词结果生成网点检索结果。

在一个实施例中，参见图4所示的另一种网点检索装置结构框图，该装置还包括分词模块36，用于：获取网点信息和查询词信息；对网点信息进行分词处理，得到网点的分词信息；对查询词信息进行分词处理，得到查询词的分词信息。

在一个实施例中，检索模块，具体用于：确定网点分词结果和查询词分词结果的匹配度；根据匹配度生成网点检索结果。

在一个实施例中，检索模块，具体用于：根据预设的倒排索引确定网点分词结果中与查询词分词结果相关的目标网点分词结果；对目标网点分词结果进行向量化处理，得到文档向量；对查询词分词结果进行向量化处理，得到查询向量；根据空间向量模型计算查询向量和文档向量之间的匹配度。

在一个实施例中，参见图5所示的另一种网点检索装置结构框图，该装置还包括校正模块35，用于：判断网点检索结果是否为空值；如果是，对查询词的分词信息进行拼写校正。

本发明实施例还提供一种网点检索系统，该系统可以包括上述任一种网点检索装置。

本发明实施例还提供一种计算机设备，参见图6所示的计算机设备结构示意框图，该计算机设备包括存储器61、处理器62，存储器中存储有可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述任一种方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的计算机设备的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述

本发明实施例还提供一种具有处理器可执行的非易失的程序代码的计算机可读介质，程序代码使处理器执行上述任一种方法的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种网点检索方法，其特征在于，包括：

获取网点的分词信息、查询词的分词信息和地址分级信息；所述地址分级信息包括已识别地址信息和待匹配地址等级信息；

根据所述已识别地址信息和所述待匹配地址等级信息对所述网点的分词信息进行信息合并处理，得到网点分词结果；

根据所述已识别地址信息和待匹配地址等级信息对所述查询词的分词信息进行信息合并处理，得到查询词分词结果；

根据所述网点分词结果和所述查询词分词结果生成网点检索结果。

2.根据权利要求1所述的网点检索方法，其特征在于，获取网点的分词信息、查询词的分词信息和地址分级信息之前，还包括：

获取网点信息和查询词信息；

对所述网点信息进行分词处理，得到网点的分词信息；

对所述查询词信息进行分词处理，得到查询词的分词信息。

3.根据权利要求1所述的网点检索方法，其特征在于，根据所述网点分词结果和所述查询词分词结果生成网点检索结果，包括：

确定所述网点分词结果和所述查询词分词结果的匹配度；

根据所述匹配度生成网点检索结果。

4.根据权利要求3所述的网点检索方法，其特征在于，确定所述网点分词结果和所述查询词分词结果的匹配度，包括：

根据预设的倒排索引确定所述网点分词结果中与所述查询词分词结果相关的目标网点分词结果；

对所述目标网点分词结果进行向量化处理，得到文档向量；

对所述查询词分词结果进行向量化处理，得到查询向量；

根据空间向量模型计算所述查询向量和所述文档向量之间的匹配度。

5.根据权利要求1-4任一项所述的网点检索方法，其特征在于，还包括：

判断所述网点检索结果是否为空值；

如果是，对所述查询词的分词信息进行拼写校正。

6.一种网点检索装置，其特征在于，包括：

获取模块，用于获取网点的分词信息、查询词的分词信息和地址分级信息；所述地址分级信息包括已识别地址信息和待匹配地址等级信息；

第一合并模块，用于根据所述已识别地址信息和所述待匹配地址等级信息对所述网点的分词信息进行信息合并处理，得到网点分词结果；

第二合并模块，用于根据所述已识别地址信息和待匹配地址等级信息对所述查询词的分词信息进行信息合并处理，得到查询词分词结果；

检索模块，用于根据所述网点分词结果和所述查询词分词结果生成网点检索结果。

7.根据权利要求6所述的网点检索装置，其特征在于，还包括分词模块，用于：

获取网点信息和查询词信息；

对所述网点信息进行分词处理，得到网点的分词信息；

对所述查询词信息进行分词处理，得到查询词的分词信息。

8.根据权利要求6所述的网点检索装置，其特征在于，还包括校正模块，用于：

判断所述网点检索结果是否为空值；

如果是，对所述查询词的分词信息进行拼写校正。

9.一种网点检索系统，其特征在于，包括权利要求6或7所述的网点检索装置。

10.一种计算机设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至5任一项所述的方法的步骤。

11.一种具有处理器可执行的非易失的程序代码的计算机可读介质，其特征在于，所述程序代码使所述处理器执行上述权利要求1至5任一项所述的方法。