CN109165331A

CN109165331A - 一种英文地名的索引建立方法及其查询方法和装置

Info

Publication number: CN109165331A
Application number: CN201810945986.8A
Authority: CN
Inventors: 张雪英; 杜咪; 叶鹏
Original assignee: Nanjing Normal University
Current assignee: Nanjing Normal University
Priority date: 2018-08-20
Filing date: 2018-08-20
Publication date: 2019-01-08
Also published as: AU2018102145A4; WO2020037794A1

Abstract

本发明属于自然语言处理领域，主要公开了一种英文地名的索引建立方法及其查询方法和装置，其利用地名中的字母总数、字母部首数、单词总数与单词首字母编码等文本特征，按照“多维特征统计‑倒排索引生成‑候选地名查询‑相似程度排序”的主线进行地名查询，得到基于特征统计倒排索引的英文地名词典查询方法。本发明不仅在大规模数据环境下保持较高的运行效率，而且能够在查询地名表述不准确的情况下较为准确地查询到目标地名，让用户获得更优的用户体验。

Description

一种英文地名的索引建立方法及其查询方法和装置

技术领域

本发明涉及一种自然语言处理领域，特别是涉及一种面向大规模地名数据的英文地名词典查询方法。

背景技术

地名词典查询是地名拼写校验、模糊匹配、光学识别等应用的基础操作，为其提供地名词语知识支持。随着全球一体化进程的加快，国际间地名信息的传递速度不断加快、使用频率日益提高。英文作为世界上广泛使用的语言之一，通常用作不同语言文字之间地名转译、存储和管理的标准。同时，数据的爆炸性增长和信息存储技术的迅速发展，使得大规模的地名数据集合日益普遍。因此，如何在大规模数据环境下高效地进行英文地名词典查询，成为完善众多地名服务与应用的重要技术挑战。

常规的词典查询方法一般是采用顺序遍历或者二分查找的方法来获取查询记录，但是其运行效率与数据规模大小成线性关系，当面对海量数据时很难满足实际需要。倒排文件作为一种简单、高效的文档数据索引方式，是现代搜索引擎检索系统实现的一项基础技术，逐步被引入到词典查找机制中。词级(Word-Level)索引是倒排文件实现短语或临近查询的一般组织方式，其中N-gram索引是一种最常用的词级索引结构。N-gram结构虽然在一定程度上提升了查询的召回率，但是N-gram产生的词元通常较多增大了索引的空间资源占用，并且导致构建处理和查询处理的速度下降。此外以词素形式构成的索引项在模糊查询时需要借助相似度计算，每一个索引项都需要与查询条件进行相似度比较。这种查询模式大大增加了运行机制的复杂度，很难适应大规模数据环境的应用需求。

因此，为了应对不同场景的实际应用需求，如何在英文地名查询输入地名不准确、不完整的情况下，高效地返回完全准确或者最为接近的查询结果，是目前本领域技术人员需要研究和解决的难题。

发明内容

技术问题

本发明所要解决的技术问题包括：如何在英文地名查询输入地名不准确、不完整的情况下高效地返回完全准确或者最为接近的查询结果，以及在该技术问题下的相关技术问题。

发明内容

技术贡献内容的概要：发掘英文地名中包含的文本特征并与词典查询机制结合，是提升查询性能的关键所在，本发明利用地名中的字母总数、字母部首数、单词总数与单词首字母编码等文本特征，按照“多维特征统计-倒排索引生成-候选地名查询-相似程度排序”的主线进行地名查询，提出一种基于特征统计倒排索引的英文地名词典查询方法。

技术方案

第一方面

本发明提供了一种英文地名索引建立方法，应用于用户设备，所述方法包括：S1)统计在英文地名词典文本中存储全部英文地名词组的多个特征值，所述特征值包括字母总数、字母部首数、单词总数与单词首字母编码；S2)根据英文地名词组的各所述特征值生成一组对应的多维特征统计向量；S3)将各英文地名词组的多维特征统计向量及其在倒排表的位置映射信息作为索引项建立倒排索引文件，其中，各所述索引项分别对应一倒排链。

下面对上述英文地名索引建立方法的过程和原理，进行详细说明。

首先，关于特征值的统计，依次统计英文地名词典中存储全部地名词组的特征值包括：字母总数、字母部首数、单词总数与单词首字母编码。其中，(1)字母总数表示地名词组中包含的全部字母总和；(2)字母部首是按照中文汉字的象形文字思想，设定每个英文字母由“|”、“—”、“/”、“\”，“(”与“)”6个部首中的部分部首组成，不同字母的部首表达如下表1所示。显然，两个字符串中出现的相同字符越多，则认为两者越相似。但是英文字母个数较多，在索引项中记录每个字母的出现频次会占用过多的存储空间且不利于字符串间的比较。将每个字母用固定的部首来表达，能够在隐含记录字母出现频次特征的前提下简化查询时的比较复杂度；(3)单词总数表示地名词组中包含的全部单词总和；(4)单词首字母编码是指将地名词组中单词的首字母转换为数字编码形式，转换规则为按照A至Z的顺序分别映射“01”至“26”的编码，即A编码为“01”，B编码为“02”，以此类推。在编码转换的过程中统一将首字母转换为大写字母形式。

表1

其中，部首“|”用编号1表示，部首“—”用编号2表示，部首“/”用编号3表示，部首“\”用编号4表示，部首“(”用编号5表示，部首“)”用编号6表示。

其次，关于索引项的构成，在索引词典中，每条索引项先后分别记录字母总数、字母部首数、单词总数、单词首字母编码与倒排表位置信息。其中，f_cn表示字母总数，记录1维向量。f_ar表示字母部首数，共有6个部首的个数信息，记录6维向量。f_wn表示单词总数，记录1维向量。f_iw表示首字母编码，本方法中记录词组中地名词组中前4个单词的首字母编码信息，不足4个单词的缺位补足编码“00”，记录4维向量。将这些向量按照公式(1)、(2)与(3)的方式联立，构成12维向量d_i。d_i作为索引项充分表征英文地名字符串的文本特性，以此作为英文地名查询的入口。

d_i＝[f_cn，f_ar，f_wn，f_iw] (1)

f_ar＝[f_ar1，f_ar2，...，f_ar6] (2)

f_iw＝[f_iw1，f_iw2，...，f_iw4] (3)

再者，关于构建倒排链文件，出现在词典中的每个索引项对应一个倒排链，倒排链利用一个文档命中记录的数据结构(tf，<p1，p2，…，pf>)记录索引项在地名词典中的命中信息。其中，tf表示索引项在地名词典中的出现次数，pi表示每次出现在地名词典中的位置偏移信息。全部命中信息有序排列构成其所对应的倒排链。

第二方面

本发明还提供了一种英文地名查询方法，应用于用户设备，所述英文地名查询方法包括：获取用户在用户设备上输入的检索关键词；根据英文地名数据库中预先建立的索引文件查找与所述检索关键词相关的候选地名集合，其中，所述用户设备上存储的索引文件是根据上述第一方面所述的英文地名索引建立方法构建得到；将候选地名集合返回至用户设备上进行显不。

下面对上述英文地名查询方法的过程和原理，进行详细说明。

关于候选地名集合的选取过程为：

第一，对于提交的查询地名，首先进行规范化处理，即将地名词组中单词的转化为首字母大写的形式。

第二，按照构建索引时的特征统计规则，对查询地名的各项特征值进行统计，并组织成向量的形式表示为Q＝[qf_cn，qf_ar，qf_wn，qf_iw]。

第三，利用Q与索引词典中的索引项进行比较，当满足公式(4)时则该索引项d_i为候选项。

式中，f_cn表示字母总数，f_ar表示字母部首数，f_wn表示单词总数，f_iw表示首字母编码。k_cn表示字母总数维度阈值，k_ar表示字母部首数维度阈值，k_wn表示单词总数维度阈值，k_iw表示首字母编码维度阈值。

第四，对于d_i中的索引信息进行逆向解析，根据倒排链中对应的位置偏移信息<p₁，p₂，…，p_f>，查询到地名词典中相关存储位置上的地名数据。将查询到的全部地名数据进行结果合并，形成候选地名集合。

在一些优选方案中，上述英文地名查询方法还可以包括以下步骤：在得到候选地名集合后，计算所述候选地名集合中各英文地名与检索关键词的相似度值；按照相似度值由大到小的顺序对所述候选地名集合中英文地名进行排序，并将排序结果返回至用户设备上进行显示。

关于候选地名集合的顺序相似度排序过程：

第一：顺序相似度计算，对于候选地名集合中的全部地名词组计算其与查询地名的顺序相似度。假设有P＝p₁p₂...p_n和W＝w₁w₂...w_m两个地名字符串，N表示P与W之间顺序相同的字符。N顺序相同的判断依据两个原则：(1)局部顺序相同原则。N由局部相似项ls_i组成，P与W之间可能存在多个ls_i。若P中存在子串q_i＝p_jp_j+1...p_k，与W中的子串w_sw_s+1...w_t完全相同，则ls_i符合局部顺序相同原则，设定ls_i为一个局部相似项。(2)整体顺序相同原则。P与W之间顺序相同的ls_i组成N。P与W的地名相似度计算公式如公式(5)所示。

式中，sim(P，W)为P与W之间的顺序相似度值，len(N)、len(P)与len(W)分别表示N、P与W的字符串长度值。

第二：顺序相似度排序。对于候选地名按照顺序相似度高级进行排序，并将排序结果作为最终查询结果返回用户。

技术效果

本发明利用总结地名中的单词数、字母数等多维文本统计特征，按照“多维特征统计-倒排索引生成-候选地名查询-相似程度排序”的主线进行地名查询。在索引生成过程中，对每条地名记录提取字母总数、字母部首数、单词总数与单词首字母编码的特征，以多维特征组成的向量作为索引项构建相应的倒排索引结构。在候选地名查找与顺序相似度排序过程中，对查询请求进行规范化处理与多维特征提取，依据生成的特征向量在倒排索引中查询获得候选地名集合，并将候选集合按照相似度由高到低排序返回给用户。经过实验证明，本发明提出的基于特征统计倒排索引的英文地名词典查询方法不仅在大规模数据环境下保持较高的运行效率，而且能够在查询地名表述不准确的情况下较为准确地查询到目标地名，让用户获得更优的用户体验。

附图说明

图1为本发明一种英文地名索引建立方法的流程图。

图2为本发明一种英文地名查询方法的流程图。

图3为本发明一种英文地名查询方法在一优选实施例中的流程图。

图4为本发明一种英文地名查询装置的原理图。

图5为本发明一种英文地名查询装置在一优选实施例中的原理图。

图6为本发明一种英文地名词典查询方法的图形流程图。

图7为本发明英文地名索引建立方法中倒排索引结构示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。

技术名称解释

字母部首，是指使用“|”、“—”、“/”、“\”，“(”与“)”6个字符(即部首)来描述大小字母的构成，即任何大小字母都可以由该6个字符中的部分字符来组成。如果我们分别用编号1-6来依次表示“|”、“—”、“/”、“\”，“(”与“)”，那么任何字母的部首即可一个串数字来表示。例如，“L”是可以由“|”和“—”组成，故“L”的部首数字表示为“12”。

字母部首数，是指将英文地名中所有字母对应为字母部首的编号来表示后(要求英文地名中各单词的首字母为大写)，统计所有部首的数量。

字母编码，是指将地名词组中单词的首字母转换为数字编码形式，转换规则为按照A至Z的顺序分别映射“01”至“26”的编码，即A编码为“01”，B编码为“02”，以此类推。

实施例1

见图1，本实施例提供了一种英文地名索引建立方法，应用于用户设备，所述方法包括以下步骤：

S11，统计在英文地名词典文本中存储全部英文地名词组的多个特征值，所述特征值包括字母总数、字母部首数、单词总数与单词首字母编码；

S12，根据英文地名词组的各所述特征值生成一组对应的多维特征统计向量；

S13，将各英文地名词组的多维特征统计向量及其在倒排表的位置映射信息作为索引项建立倒排索引文件，其中，各所述索引项分别对应一倒排链。

具体而言，所述多维特征统计向量为：d_i＝[f_cn，f_ar，f_wn，f_iw]，其中，d_i表示英文地名的多维特征统计向量，f_cn表示字母总数，f_ar表示字母部首数，f_wn表示单词总数，f_iw表示首字母编码，所述f_ar包括6个部首的个数信息，所述f_iw包括英文地名词组中前4个单词的首字母编码信息。

具体而言，，所述英文地名索引建立方法还可以包括：在根据所述索引项查询英文地名时，将检索关键词与所述索引项进行比较，当索引项满足以下条件时，将该索引项作为查询的候选项；所述条件包括：

其中，qf_cn表示检索关键词中的字母总数，qf_ar表示检索关键词中的字母部首数，qf_wn表示检索关键词中的单词总数，qf_iw表示检索关键词中的首字母编码，k_cn表示字母总数维度阈值，k_ar表示字母部首数维度阈值，k_wn表示单词总数维度阈值，k_iw表示首字母编码维度阈值。

实施例2

见图2，本实施例提供了一种英文地名查询方法，应用于用户设备，所述英文地名查询方法包括以下步骤：

S21，获取用户在用户设备上输入的检索关键词；

S22，根据英文地名数据库中预先建立的索引文件查找与所述检索关键词相关的候选地名集合，其中，所述用户设备上存储的索引文件是根据实施例1所述英文地名索引建立方法构建得到；

S23，将候选地名集合返回至用户设备上进行显示。

作为一种优选实施例，见图3，在得到候选地名集合后，该英文地名查询方法还可以包括：

S31，计算所述候选地名集合中各英文地名与检索关键词的相似度值；

S32，按照相似度值由大到小的顺序对所述候选地名集合中英文地名进行排序，并将排序结果返回至用户设备上进行显示。

具体而言，所述候选地名集合中各英文地名与检索关键词的相似度值的计算方法为：

其中，P表示检索关键词的字符串，W表示英文地名的字符串，sim(P，W)为P与W之间的顺序相似度值，len(N)、len(P)与len(W)分别表示N、P与W的字符串长度值，N表示P与W之间顺序相同的字符。

实施例3

见图4，本实施例提供了一种英文地名查询装置300，应用于用户设备，其具体包括接收模块310、查找模块320和显示模块330，接收模块310用于获取用户在用户设备上输入的检索关键词；查找模块320用于根据英文地名数据库中预先建立的索引文件查找与所述检索关键词相关的候选地名集合，其中，所述用户设备上存储的索引文件是根据权利要求1或2所述英文地名索引建立方法构建得到；显示模块330用于显示返回至用户设备上的候选地名集合。

在一优选方案中，见图5，该英文地名查询装置还包括相似度计算模块410和排序模块420，相似度计算模块410用于在得到候选地名集合后，计算所述候选地名集合中各英文地名与检索关键词的相似度值；排序模块420用于按照相似度值由大到小的顺序对所述候选地名集合中英文地名进行排序，并返回至用户设备上；所述显示模块显示所述排序结果。

具体而言，所述相似度计算模块中计算所述候选地名集合中各英文地名与检索关键词的相似度值的公式包括：

为使领域技术人员能够更加清楚地了解本发明，这里以地名“Aalders LangBrook”为例，并结合图1，来对上述实施例的内容进行详细的原理性说明，为便于阐述和理解，说明将按照索引生成过程-候选地名查找过程-顺序相似度排序过程的逻辑顺序来展开描述。

(一)索引生成过程：

步骤11：依次统计英文地名词典中存储全部地名词组的特征值，包括：字母总数、字母部首数、单词总数与单词首字母编码。以地名“Aalders Lang Brook”为例，其字母总数为16。字母部首数方面，“|”、“—”、“/”、“\”、“(”与“)”6个部首出现的个数分别是9、8、3、2、12、9。单词总数为3。单词首字母编码分为1、12、2、0。

步骤12：构建索引词典文件。索引词典中，每条索引项先后分别记录字母总数、字母部首数、单词总数、单词首字母编码与倒排表位置信息。以地名“Aalders Lang Brook”为例，由于其字母总数为16，字母部首数为9、8、3、2、12、9，单词总数为3，单词首字母编码为1、12、2、0，因此多维特征向量表达为[16，[9，8，3，2，12，9]，3，[1，12，2，0]]。再加上其与倒排表的位置映射信息<1001>，在索引词典文件中的索引项结构为([16，[9，8，3，2，12，9]，3，[1，12，2，0]]，<1001>)。

步骤13：构建倒排链文件。出现在词典中的每个索引项对应一个倒排链，倒排链利用一个文档命中记录的数据结构(tf，<p₁，p₂，…，p_f>)记录索引项在地名词典中的命中信息。以多维特征向量[16，[9，8，3，2，12，9]，3，[1，12，2，0]]为例，其对应的倒排表位置映射信息为<1001>，即在倒排链文件中1001的位置存储了英文地名词典中全部多维特征向量为的词组的存储位置信息。例如：倒排链文件1001位置的记录信息为(<5>，<7>，...，<125>，...)，表示相关地名词组在英文地名词典中的存储位置分别是5、7、...、125等。

(二)候选地名查找过程：

步骤21：对于提交的查询地名，首先进行规范化处理，即将地名词组中单词的转化为首字母大写的形式。以查询地名“Alders langbrook”为例，需要转化为“Alders LangBrook”。

步骤22：按照构建索引时的特征统计规则，对查询地名的各项特征值进行统计，并组织成向量的形式表示为Q＝[qf_cn，qf_ar，qf_wn，qf_iw]。以查询地名“Alders langbrook”为例，其字母总数为15，字母部首数为9、8、3、2、10、9，单词总数为3，单词首字母编码为1、12、2、0，多维统计向量为[15，[9，8，3，2，10，9]，3，[1，12，2，0]]。

步骤23：利用Q与索引词典中的索引项进行比较，当满足公式(4)时则该索引项d_i为候选项qd_i。

步骤24：对于候选项qd_i中的索引信息进行逆向解析，根据倒排链中对应的位置偏移信息<p₁，p₂，…，p_f>，查询到地名词典中相关存储位置上的地名数据。将查询到的全部地名数据进行结果合并，形成候选地名集合。以查询地名“Alders langbrook”为例，对步骤23查询到索引项([16，[9，8，3，2，12，9]，3，[1，12，2，0]]，<1001>)为候选项qd_i，对qd_i中的全部倒排链映射位置信息进行解析，并在倒排链中查找相关记录<1001>。再利用<1001>记录中包含的词典存储位置信息(<5>，<7>，...，<125>，...)进入英文地名词典文件查找相关地名词组，全部地名形成候选地名集合C。

(三)顺序相似度排序过程：

步骤31：通过统计2个字符串间顺序相同的字符数量比例来判定地名之间的相似程度。假设有P＝p₁p₂...p_n和W＝w₁w₂...w_m两个地名字符串，N表示P与W之间顺序相同的字符。N顺序相同的判断依据两个原则：(1)局部顺序相同原则。N由局部相似项ls_i组成，P与W之间可能存在多个ls_i。若P中存在子串q_i＝p_jp_j+1...p_k，与W中的子串w_sw_s+1...w_t完全相同，则ls_i符合局部顺序相同原则，设定ls_i为一个局部相似项。(2)整体顺序相同原则。P与W之间顺序相同的ls_i组成N。例如P＝“Aalders Lang Brook”，W＝“Lang Aalders Brook”，按照局部顺序相同原则，“Aalders”、“Lang”、“Brook”分别是局部相似项ls₁、ls₂与ls₃。P中顺序为ls₁ls₂ls₃，W中顺序为ls₂ls₁ls₃。以查询地名P中顺序为基准，则符合整体顺序相同原则的是ls₁ls₃，因此N＝ls₁ls₃。P与W的地名相似度计算公式如公式(5)所示。

式中，sim(P，W)为P与W之间的顺序相似度值，len(N)、len(P)与len(W)分别表示N、P与W的字符串长度值。即“Aalders Lang Brook”与“Lang Aalders Brook”的相似度为12/16≈0.75。

步骤32：顺序相似度排序。基于步骤31的相似度计算结果，对候选地名集合C中地名C_q按照相似度结果由高到低进行排序，并将排名前n位的C_q作为查询结果。

实验分析

为验证本发明的技术效果，本实施例以11.5万条英文地名数据为例构造英文地名词典，从中抽取5409条地名作为标准地名。对标准地名通过人为增加错误的方式构造测试集，错误类型涵盖多种不准确描述方式(例如：多字母；缺字母；字母错误；字母顺序替换等)，并依据增加错误后与原有标准地名对比的准确度将其划分为5个等级(如表所示)。其中，准确度定义如公式6所示：

式中，A表示查询地名P中与目标地名C相比准确的字符数量，N表示查询地名P字符数量，accu(P，C)表示P的准确度。

表2实施例测试集划分明细

注：括号中内容为测试地名对应的目标地名，即标准地名形式。

此外，在实验中，本发明对不同准确程度查询地名的查询效果如下表3：

表3实验结果评价指标统计

实验结果表明，本发明提出的基于特征统计倒排索引的英文地名词典查询方法不仅在大规模数据环境下保持较高的运行效率，而且能够在查询地名表述不准确的情况下较为准确地查询到目标地名。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种英文地名索引建立方法，应用于用户设备，其特征在于，所述方法包括：

统计在英文地名词典文本中存储全部英文地名词组的多个特征值，所述特征值包括字母总数、字母部首数、单词总数与单词首字母编码；

根据英文地名词组的各所述特征值生成一组对应的多维特征统计向量；

将各英文地名词组的多维特征统计向量及其在倒排表的位置映射信息作为索引项建立倒排索引文件，其中，各所述索引项分别对应一倒排链。

2.根据权利要求1所述的英文地名索引建立方法，其特征在于，所述多维特征统计向量为：

d_i＝[f_cn,far,fwn,f_iw]，

其中，d_i表示英文地名的多维特征统计向量，f_cn表示字母总数，f_ar表示字母部首数，f_wn表示单词总数，f_iw表示首字母编码，所述f_ar包括6个部首的个数信息，所述f_iw包括英文地名词组中前4个单词的首字母编码信息。

3.根据权利要求2所述的英文地名索引建立方法，其特征在于，还包括：

在根据所述索引项查询英文地名时，将检索关键词与所述索引项进行比较，当索引项满足以下条件时，将该索引项作为查询的候选项；

所述条件包括：

4.一种英文地名查询方法，应用于用户设备，其特征在于，所述英文地名查询方法包括：获取用户在用户设备上输入的检索关键词；

根据英文地名数据库中预先建立的索引文件查找与所述检索关键词相关的候选地名集合，其中，所述用户设备上存储的索引文件是根据权利要求1或2所述英文地名索引建立方法构建得到；

将候选地名集合返回至用户设备上进行显示。

5.根据权利要求4所述的英文地名查询方法，其特征在于，在得到候选地名集合后，还包括：

计算所述候选地名集合中各英文地名与检索关键词的相似度值；

按照相似度值由大到小的顺序对所述候选地名集合中英文地名进行排序，并将排序结果返回至用户设备上进行显示。

6.根据权利要求4或5所述的英文地名查询方法，其特征在于，所述候选地名集合中各英文地名与检索关键词的相似度值的计算方法为：

7.一种英文地名查询装置，应用于用户设备，其特征在于，包括：

接收模块，用于获取用户在用户设备上输入的检索关键词；

查找模块，用于根据英文地名数据库中预先建立的索引文件查找与所述检索关键词相关的候选地名集合，其中，所述用户设备上存储的索引文件是根据权利要求1或2所述英文地名索引建立方法构建得到；

显示模块，用于显示返回至用户设备上的候选地名集合。

8.根据权利要求7所述的英文地名查询装置，其特征在于，还包括：

相似度计算模块，用于在得到候选地名集合后，计算所述候选地名集合中各英文地名与检索关键词的相似度值；

排序模块，用户按照相似度值由大到小的顺序对所述候选地名集合中英文地名进行排序，并返回至用户设备上；

所述显示模块显示所述排序结果。

9.根据权利要求7或8所述的英文地名查询装置，其特征在于，所述相似度计算模块中计算所述候选地名集合中各英文地名与检索关键词的相似度值的公式包括：