CN109145161A

CN109145161A - 中文地名查询方法、装置及设备

Info

Publication number: CN109145161A
Application number: CN201810762114.8A
Authority: CN
Inventors: 张雪英; 叶鹏; 杜咪
Original assignee: Nanjing Normal University
Current assignee: Nanjing Normal University
Priority date: 2018-07-12
Filing date: 2018-07-12
Publication date: 2019-01-04

Abstract

本发明提供一种中文地名查询方法、装置及设备，其利用地名中的相同字符、字符数量、字符位置等语言特征，按照“单字索引生成‑候选地名查询‑字符长度过滤‑相似程度排序”的主线进行地名查询。本发明提出的融合多字符特征的中文地名查询方法不仅在大规模数据环境下保持较高的运行效率，而且能够在查询地名表述不准确的情况下较为准确地查询到目标地名，让用户获得更优的用户体验。

Description

中文地名查询方法、装置及设备

技术领域

本发明涉及一种自然语言处理领域，特别是涉及一种面向海量大规模中文地名数据的中文地名查询方法、装置及设备。

背景技术

作为与人们日常密切相关的基础地理信息和社会公共信息，地名在社会管理、经济发展、文化建设、国家安全等方面具有非常重要的应用价值。近年来，地名数据采集涉及的部门越来越广，数据规模日益增大，应用场景不断丰富。如何从海量数据中实现地名的快速、准确查询已经成为中文地名信息管理与服务面临的重要技术挑战。

现有地名查询方法主要存在以下技术问题：

第一，现有地名查询方法主要包括有全字符匹配查询、模糊音查询、字符串匹配度、SQL(英文全称：Structured Query Language)通配符查询等方法，其对查询条件准确度要求和时间复杂度较高，要求用户具备一定专业知识，故很难满足海量地名查询的实际应用需求。

第二，由于中文地名区别于一般性的文本信息，中文地名具有字符长度较短、数据量巨大、描述形式多样等特点，而现有的地名查询方法大多直接采用或借鉴信息检索方法，缺少有效针对中文地名查询需求的应对策略；

第三，现有查询方法一般将地名作为普通字符串处理，忽略了地名本身的字符特征和描述规律，所以查询结果往往不准确，需要人为多次修订检索词才可能查询到。

因此，如何提供一种能够满足大众用户快速而准确地查中文地名的方法，成了当前的一个技术难题。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种中文地名查询方法、装置及设备，用于解决面向海量大规模中文地名数据中快速而准确地实现中文地名的查询的问题。

为实现上述目的及其他相关目的，本发明提供以下解决方案：

一种融合多字符特征的中文地名查询方法，包括：S1)获取用户在查询终端输入的查询地名；S2)根据预先生成的词典文件和索引文件在地名数据库中依次进行候选地名查找、字符长度过滤、匹配度统计、相似度计算及相似度排序处理来识别出与所述查询地名相似的地名序列，并在所述查询终端予以显示；其中，所述词典文件是预先对所述地名数据库中所有地名按照无换行无间隔的方式依次排列得到的字符串文件；所述索引文件是预先存储有根据所述词典文件中所有不重复汉字形成的多条条索引记录的文件，每条所述索引记录至少包括地名个数，字符编码以及词典文件存储位置。

优选地，根据预先生成的词典文件和索引文件在地名数据库中依次进行候选地名查找、字符长度过滤、匹配度统计、相似度计算及相似度排序处理来识别出与所述查询地名相似的地名序列的步骤具体包括：

为了实现上述目的，本发明提出一种融合多字符特征的中文地名查询方法，包括以下步骤：

步骤211：查询地名分词，将查询地名按照一元分词方法进行中文分词，获得i个地名字符W₁、W₂、…、W_i；

步骤212：候选结果集合生成，以分词结果分别作为查询关键字，在索引文件中查询其对应的索引记录。之后对索引记录中的信息进行逆向解析，根据索引中位置信息查询词典文件中对应的地名数据，并将全部查询结果返回形成候选结果集合R＝{R₁，R₂，…，R_p}；

步骤221：字符数量统计，对查询地名以及候选结果集合中地名的字符数量分别进行统计。记录查询地名P的字符数量为a，候选结果集合R中地名R_p的字符数量为b；

步骤222：过滤结果集合生成。设定阈值范围为k，当候选结果集合W中地名W_p满足abs(b-a)≤k时，将W_p保存到过滤结果集合C中；

步骤231：匹配度统计，对查询地名与过滤结果集合中每个地名的匹配度依次进行统计。N表示查询地名P与过滤结果集合C中地名C_q的相同字符数(匹配度)。相同字符的判断依据两个原则：一是局部顺序相同原则。对于查询地名P＝p₁p₂…p_n与过滤地名C＝c₁c₂…c_m，存在p_jp_j+1…p_k与c_sc_s+1…c_t完全相同，其中k-j＝t-s，则认为p_jp_j+1…p_k为一个局部相似项q；二是整体顺序相同原则。构成相同字符的局部相似项必须是过滤地名中与查询地名局部相似项顺序相同的部分；

步骤232：相似度计算，基于匹配度统计结果，对过滤结果集合C中地名C_q依次计算其与查询地名P的相似度。本方法中按照下述公式进行地名相似度计算：

其中，P与C分别表示两个地名字符串，m与n分别表示P与C的字符总数，c表示P与C的字符匹配度，L₁(i)与L₂(i)分别表示匹配字符i在P与W中的匹配序，α与β分别表示匹配度与匹配序评价结果的权重，并且α与β的和为1。通常情况下α与β的取值依据黄金分割定律，分别取0.6与0.4。匹配序按照从左到右的顺序，从起始位置1开始以递增的方式计算。

步骤233：相似度排序，基于步骤42的相似度计算结果，对过滤结果集合C中地名C_q按照相似度结果由高到低进行排序，并将排名前N位的C_q作为地名查询结果。

本发明的有益效果：

本发明根据预先设置的词典文件和索引文件对中文地名数据库进行有规律编辑和标记，然后利用地名中的相同字符、字符数量、字符位置等语言特征，按照“单字索引生成-候选地名查询-字符长度过滤-相似程度排序”的主线进行地名查询，从而准确地从地名数据库中查找到与查询地名匹配的相关地名，进而快速找到用户想要查找的地名。

附图说明

图1为本发明一种融合多字符特征的中文地名查询方法的流程图。

图2为本发明索引文件存储示意图。

图3为本发明候选地名查询流程图。

图4为本发明一种融合多字符特征的中文地名查询装置的原理图。

图5为本发明一种设备的原理图。

元件标号说明

200 中文地名查询装置

210 接收模块

220 识别模块

230 显示模块

300 设备

310 处理器

320 存储器

330 显示器

S1～S232 步骤

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

【说明】

以下实施例通过在480万中文地名数据库中查询1700条测试地名作为实施示例来对本发明的技术方案做详细阐述和说明。

具体的，以480万条全国地名数据为例构造中文地名数据库，从中抽取1700条地名作为标准地名。对标准地名通过人为增加错误的方式构造测试集，错误类型涵盖各类不准确描述方式，并依据增加错误后与原有标准地名对比的准确度将其划分为5个等级(如表所示)，其中，准确度定义如公式2所示：

式中，A表示查询地名P中与目标地名C相比准确的字符数量，N表示查询地名P字符数量，accu(P，C)表示P的准确度。

表1实施例测试集划分明细

实施例一

见图1，本实施例提供一种融合多字符特征的中文地名查询方法的流程图，如图所示，所述中文地名查询方法包括：

步骤S1：获取用户在查询终端输入的查询地名；

步骤S2：根据预先生成的词典文件和索引文件在地名数据库中依次进行候选地名查找、字符长度过滤、匹配度统计、相似度计算及相似度排序处理来识别出与所述查询地名相似的地名序列，并在所述查询终端予以显示；其中，所述词典文件是预先对所述地名数据库中所有地名按照无换行无间隔的方式依次排列得到的字符串文件；所述索引文件是预先存储有根据所述词典文件中所有不重复汉字形成的多条条索引记录的文件，每条所述索引记录至少包括地名个数，字符编码以及词典文件存储位置。

其中，词典文件和索引文件的生成方法可以参见图2。

具体的，词典文件的具体生成方式为：将原始中文地名数据库中的全部地名数据T₁、T₂、…、T_n，其中T_n由多个汉字字符v组成，即T_n＝W₁W₂…W_i。即所有地名按照无换行无间隔的方式依次排列，形成一条连续的字符串S_t＝T₁T₂…T_n，存储于词典文件中。

具体的，索引文件的具体生成方式为：索引文件是存储索引记录的物理文件，用于存储索引记录和词典文件中地名词项之间的对应关系，词典文件中包含的每一个不重复汉字W_i形成一条索引记录，每条索引记录中包含三部分信息：地名个数，字符编码以及词典文件存储位置。

更加具体来说，假设词典文件中共有n个不重复汉字W_i，i∈[1,n]，C_i表示汉字W_i的UTF-8编码，N_i为词典文件中包含汉字W_i的地名个数，每个地名的起始位置与结束位置分别表示为S_nm、E_nm，那么地名在词典文件中的存储位置序列表示为<S_n1，E_n1，S_n2，E_n2…，S_nm，E_nm>。以地名“中岗子”为例，将“中岗子”存储到词典文件中，记录下S_nm(“中”在字符串中位置1001)与E_nm(“子”在字符串中位置1003)。之后在索引文件中生成“中”、“岗”、“子”3条索引记录，其中“中”字索引为[11079][0xE4B8AD][1001,1003,1015,1017,…,83475,83478]，记录字符编码(0xE4B8AD)、词典文件中所有包含“中”字地名的个数(11079)及其存储位置，既有“中岗子”所在位置(1001，1003)，还有“中夹滩”、“姜尾林中”等其它含“中”地名所在位置，如(1015，1017)(83475，83478)等。

作为一种优选实施方案，请参见图3，候选地名查询的步骤具体包括：

步骤S211：查询地名分词。具体的，将查询地名按照一元分词方法进行中文分词，获得i个地名字符W₁、W₂、…、W_i。如查询“中岗子”拆分为“中/岗/子”。

步骤S212：候选结果集合生成。具体的，以分词结果分别作为查询关键字，在索引文件中查询其对应的索引记录。之后对索引记录中的信息进行逆向解析，根据索引中位置信息查询词典文件中对应的地名数据，并将全部查询结果返回形成候选结果集合R＝{R₁，R₂，…，R_p}。

具体来说，以查询地名“中岗子”为例，首先将分词结果“中”作为查询关键字，将“中”字转换为UTF-8编码“0xE4B8AD”在索引文件中查询。查询到索引文件中“0xE4B8AD”项记录后，读取地名个数“3762”。可知词典文件中共有3762个地名包含“中”字，循环遍历索引项中的词典位置信息获取到各个包含“中”字的地名在词典文件中的存储位置，例如：(1015，1017)(83475，83478)。基于此位置信息，在词典文件中获取到对应起始位置上的全部地名信息，作为“中”字的候选地名。再依次获取到“岗”字与“子”字的候选地名，共同组合形成候选地名集合。

进一步地，在上述优选方案基础上，所述字符长度过滤的步骤具体包括：

步骤S221：字符数量统计。具体的，对查询地名以及候选结果集合中地名的字符数量分别进行统计。记录查询地名P的字符数量为a，候选结果集合R中地名R_p的字符数量为b。以查询地名“中岗子”为例，查询地名P的字符数量a为3。其候选地名集合中地名“中夹滩”字符数量为3，“姜尾林中”字符数量为4。

步骤S222：过滤结果集合生成。具体的，设定阈值范围为k，当候选结果集合W中地名W_p满足abs(b-a)≤k时，将W_p保存到过滤结果集合C中。以查询地名“中岗子”为例，设置阈值为P与W_p中较长地名字符数量的30％(不为整数采用四舍五入方式取整)，则字符数量为2-4之间的候选地名得到保留，形成过滤结果集合。

进一步地，在上述优选方案基础上，所述匹配度统计和相似度计算的步骤具体包括：

步骤S231：匹配度统计。对查询地名与过滤结果集合中每个地名的匹配度依次进行统计。N表示查询地名P与过滤结果集合C中地名C_q的相同字符数(匹配度)。相同字符的判断依据两个原则：一是局部顺序相同原则。对于查询地名P＝p₁p₂…p_n与过滤地名C＝c₁c₂…c_m，存在p_jp_j+1…p_k与c_sc_s+1…c_t完全相同，其中k-j＝t-s，则认为p_jp_j+1…p_k为一个局部相似项q；二是整体顺序相同原则。构成相同字符的局部相似项必须是过滤地名中与查询地名局部相似项顺序相同的部分。

具体来说，例如P＝“集庆门大街”，C＝“大街集庆门”，按照局部顺序相同原则，“集庆门”与“大街”分别是局部相似项q₁、q₂，P中顺序为q₁q₂，C中顺序为q₂q₁，以P顺序为基准，则符合整体顺序相同原则的是q₁，因此相似字符为q₁，匹配度为length(q₁)。

步骤S232：相似度计算。具体的，基于匹配度统计结果，对过滤结果集合C中地名C_q依次计算其与查询地名P的相似度。本方法中按照公式(1)的方法进行地名相似度计算。

以P＝“师范大学”，C＝“南京师范大学”为例，P与C的匹配字符为“师”、“范”、“大”、“学”。其在P中的匹配序为1(师)、2(范)、3(大)、4(学)，在W中的匹配序位3(师)、4(范)、5(大)、6(学)。按照本文的相似度计算方法，P与C的相似度定义为：

在上述优选实施例的基础上，基于步骤S232的相似度计算结果，对过滤结果集合C中地名C_q按照相似度结果由高到低进行排序，并将排名前N位的C_q作为地名查询结果，即对相似度排序。

根据本发明提供的上述实施例，本发明做了如下实验分析：

由上述实例可知，本发明通过总结地名中的相同字符、字符数量、字符位置等语言特征，按照“单字索引生成-候选地名查询-字符长度过滤-相似程度排序”的主线进行地名查询，查找出词典文件中与查询地名相似度较高的标准地名，作为查询结果集合返回以达到准确高效的地名查询效果。本方法对不同准确程度查询地名的查询效果如下表：

表2实验结果评价指标统计

实验结果表明，本发明提出的融合多字符特征的中文地名查询方法不仅在大规模数据环境下保持较高的运行效率，而且能够在查询地名表述不准确的情况下较为准确地查询到目标地名。

实施例二

本实施例是根据上述实施例一中的方法提出的对应的产品实施方案，具体地，见图2，为一种融合多字符特征的中文地名查询装置的原理示意图，如图所示，该中文地名查询装置包括接收模块、识别模块和显示模块，所述接收模块适于获取用户在查询终端输入的查询地名；所述识别模块适于根据预先生成的词典文件和索引文件在地名数据库中依次进行候选地名查找、字符长度过滤、匹配度统计、相似度计算及相似度排序处理来识别出与所述查询地名相似的地名序列，所述词典文件是预先对所述地名数据库中所有地名按照无换行无间隔的方式依次排列得到的字符串文件；所述索引文件是预先存储有根据所述词典文件中所有不重复汉字形成的多条条索引记录的文件，每条所述索引记录至少包括地名个数，字符编码以及词典文件存储位置；所述显示模块适于在所述查询终端显示所述地名序列。

作为一种优选实施例，所述识别模块包括查询地名分词单元和候选结果集合生成单元，该查询地名分词单元适于将查询地名按照一元分词方法进行中文分词，获得i个地名字符W₁、W₂、…、W_i；该候选结果集合生成单元适于以分词结果分别作为查询关键字，在索引文件中查询其对应的索引记录。之后对索引记录中的信息进行逆向解析，根据索引中位置信息查询词典文件中对应的地名数据，并将全部查询结果返回形成候选结果集合R＝{R₁，R₂，…，R_p}。

进一步地，所述字符长度过滤包括字符数量统计单元和过滤结果集合生成单元，该字符数量统计单元，适于对查询地名以及候选结果集合中地名的字符数量分别进行统计。记录查询地名P的字符数量为a，候选结果集合R中地名R_p的字符数量为b；该过滤结果集合生成单元，适于设定阈值范围为k，当候选结果集合W中地名W_p满足abs(b-a)≤k时，将W_p保存到过滤结果集合C中。

进一步地，所述匹配度统计包括匹配度统计单元，适于对查询地名与过滤结果集合中每个地名的匹配度依次进行统计，所述匹配度的判定依据为查询地名P与过滤结果集合C中地名C_q的相同字符数。

进一步地，所述相似度计算包括相似度计算单元，适于基于匹配度统计结果对过滤结果集合C中地名C_q依次计算其与查询地名P的相似度，地名相似度计算的计算公式为：

其中，P与C分别表示两个地名字符串，m与n分别表示P与C的字符总数，c表示P与C的字符匹配度，L₁(i)与L₂(i)分别表示匹配字符i在P与W中的匹配序，α与β分别表示匹配度与匹配序评价结果的权重，并且α与β的和为1，匹配序按照从左到右的顺序，从起始位置1开始以递增的方式计算。

实施例三

本实施例提供了一种设备，包括处理器、存储器、显示器以及一个或多个程序，其特征在于，所述一个或多个程序被存储在所述存储器中并被配置为由所述处理器执行，所述一个或多个程序用于执行实施例一中所述的中文地名查询方法。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种融合多字符特征的中文地名查询方法，其特征在于，包括：

S1)获取用户在查询终端输入的查询地名；

S2)根据预先生成的词典文件和索引文件在地名数据库中依次进行候选地名查找、字符长度过滤、匹配度统计、相似度计算及相似度排序处理来识别出与所述查询地名相似的地名序列，并在所述查询终端予以显示；

其中，所述词典文件是预先对所述地名数据库中所有地名按照无换行无间隔的方式依次排列得到的字符串文件；所述索引文件是预先存储有根据所述词典文件中所有不重复汉字形成的多条条索引记录的文件，每条所述索引记录至少包括地名个数，字符编码以及词典文件存储位置。

2.根据权利要求1所述的融合多字符特征的中文地名查询方法，其特征在于，所述候选地名查找包括：

S211)查询地名分词的步骤：将查询地名按照一元分词方法进行中文分词，获得i个地名字符W₁、W₂、…、W_i；

S212)候选结果集合生成的步骤：以分词结果分别作为查询关键字，在索引文件中查询其对应的索引记录。之后对索引记录中的信息进行逆向解析，根据索引中位置信息查询词典文件中对应的地名数据，并将全部查询结果返回形成候选结果集合R＝{R₁，R₂，…，R_p}。

3.根据权利要求2所述的融合多字符特征的中文地名查询方法，其特征在于，所述字符长度过滤包括：

S221)字符数量统计的步骤：对查询地名以及候选结果集合中地名的字符数量分别进行统计。记录查询地名P的字符数量为a，候选结果集合R中地名R_p的字符数量为b；

S222)过滤结果集合生成的步骤：设定阈值范围为k，当候选结果集合W中地名W_p满足abs(b-a)≤k时，将W_p保存到过滤结果集合C中。

4.根据权利要求3所述的融合多字符特征的中文地名查询方法，其特征在于，所述匹配度统计包括：

S23)匹配度统计的步骤：对查询地名与过滤结果集合中每个地名的匹配度依次进行统计，所述匹配度的判定依据为查询地名P与过滤结果集合C中地名C_q的相同字符数。

5.根据权利要求4所述的融合多字符特征的中文地名查询方法，其特征在于，所述相似度计算包括：

S24)相似度计算的步骤：基于匹配度统计结果对过滤结果集合C中地名C_q依次计算其与查询地名P的相似度，地名相似度计算的计算公式为：

6.一种融合多字符特征的中文地名查询装置，其特征在于，包括：

接收模块，适于获取用户在查询终端输入的查询地名；

识别模块，适于根据预先生成的词典文件和索引文件在地名数据库中依次进行候选地名查找、字符长度过滤、匹配度统计、相似度计算及相似度排序处理来识别出与所述查询地名相似的地名序列，所述词典文件是预先对所述地名数据库中所有地名按照无换行无间隔的方式依次排列得到的字符串文件；所述索引文件是预先存储有根据所述词典文件中所有不重复汉字形成的多条条索引记录的文件，每条所述索引记录至少包括地名个数，字符编码以及词典文件存储位置；

显示模块，适于在所述查询终端显示所述地名序列。

7.根据权利要求6所述的融合多字符特征的中文地名查询装置，其特征在于，所述识别模块包括：

查询地名分词单元，适于将查询地名按照一元分词方法进行中文分词，获得i个地名字符W₁、W₂、…、W_i；

候选结果集合生成单元，适于以分词结果分别作为查询关键字，在索引文件中查询其对应的索引记录。之后对索引记录中的信息进行逆向解析，根据索引中位置信息查询词典文件中对应的地名数据，并将全部查询结果返回形成候选结果集合R＝{R₁，R₂，…，R_p}。

8.根据权利要求7所述的融合多字符特征的中文地名查询装置，其特征在于，所述字符长度过滤包括：

字符数量统计单元，适于对查询地名以及候选结果集合中地名的字符数量分别进行统计。记录查询地名P的字符数量为a，候选结果集合R中地名R_p的字符数量为b；

过滤结果集合生成单元，适于设定阈值范围为k，当候选结果集合W中地名W_p满足abs(b-a)≤k时，将W_p保存到过滤结果集合C中。

9.根据权利要求8所述的融合多字符特征的中文地名查询装置，其特征在于，所述匹配度统计包括：

匹配度统计单元，适于对查询地名与过滤结果集合中每个地名的匹配度依次进行统计，所述匹配度的判定依据为查询地名P与过滤结果集合C中地名C_q的相同字符数。

10.根据权利要求9所述的融合多字符特征的中文地名查询装置，其特征在于，所述相似度计算包括：

相似度计算单元，适于基于匹配度统计结果对过滤结果集合C中地名C_q依次计算其与查询地名P的相似度，地名相似度计算的计算公式为：

11.一种设备，包括处理器、存储器、显示器以及一个或多个程序，其特征在于，所述一个或多个程序被存储在所述存储器中并被配置为由所述处理器执行，所述一个或多个程序用于执行权利要求1至5任意一项所述的中文地名查询方法。