CN109145161A - 中文地名查询方法、装置及设备 - Google Patents
中文地名查询方法、装置及设备 Download PDFInfo
- Publication number
- CN109145161A CN109145161A CN201810762114.8A CN201810762114A CN109145161A CN 109145161 A CN109145161 A CN 109145161A CN 201810762114 A CN201810762114 A CN 201810762114A CN 109145161 A CN109145161 A CN 109145161A
- Authority
- CN
- China
- Prior art keywords
- place name
- character
- inquiry
- place
- name
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000004927 fusion Effects 0.000 claims abstract description 10
- 238000004364 calculation method Methods 0.000 claims description 21
- 238000001914 filtration Methods 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 11
- 238000012163 sequencing technique Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 6
- 230000015654 memory Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 241000234314 Zingiber Species 0.000 description 2
- 235000006886 Zingiber officinale Nutrition 0.000 description 2
- 235000008397 ginger Nutrition 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种中文地名查询方法、装置及设备,其利用地名中的相同字符、字符数量、字符位置等语言特征,按照“单字索引生成‑候选地名查询‑字符长度过滤‑相似程度排序”的主线进行地名查询。本发明提出的融合多字符特征的中文地名查询方法不仅在大规模数据环境下保持较高的运行效率,而且能够在查询地名表述不准确的情况下较为准确地查询到目标地名,让用户获得更优的用户体验。
Description
技术领域
本发明涉及一种自然语言处理领域,特别是涉及一种面向海量大规模中文地名数据的中文地名查询方法、装置及设备。
背景技术
作为与人们日常密切相关的基础地理信息和社会公共信息,地名在社会管理、经济发展、文化建设、国家安全等方面具有非常重要的应用价值。近年来,地名数据采集涉及的部门越来越广,数据规模日益增大,应用场景不断丰富。如何从海量数据中实现地名的快速、准确查询已经成为中文地名信息管理与服务面临的重要技术挑战。
现有地名查询方法主要存在以下技术问题:
第一,现有地名查询方法主要包括有全字符匹配查询、模糊音查询、字符串匹配度、SQL(英文全称:Structured Query Language)通配符查询等方法,其对查询条件准确度要求和时间复杂度较高,要求用户具备一定专业知识,故很难满足海量地名查询的实际应用需求。
第二,由于中文地名区别于一般性的文本信息,中文地名具有字符长度较短、数据量巨大、描述形式多样等特点,而现有的地名查询方法大多直接采用或借鉴信息检索方法,缺少有效针对中文地名查询需求的应对策略;
第三,现有查询方法一般将地名作为普通字符串处理,忽略了地名本身的字符特征和描述规律,所以查询结果往往不准确,需要人为多次修订检索词才可能查询到。
因此,如何提供一种能够满足大众用户快速而准确地查中文地名的方法,成了当前的一个技术难题。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种中文地名查询方法、装置及设备,用于解决面向海量大规模中文地名数据中快速而准确地实现中文地名的查询的问题。
为实现上述目的及其他相关目的,本发明提供以下解决方案:
一种融合多字符特征的中文地名查询方法,包括:S1)获取用户在查询终端输入的查询地名;S2)根据预先生成的词典文件和索引文件在地名数据库中依次进行候选地名查找、字符长度过滤、匹配度统计、相似度计算及相似度排序处理来识别出与所述查询地名相似的地名序列,并在所述查询终端予以显示;其中,所述词典文件是预先对所述地名数据库中所有地名按照无换行无间隔的方式依次排列得到的字符串文件;所述索引文件是预先存储有根据所述词典文件中所有不重复汉字形成的多条条索引记录的文件,每条所述索引记录至少包括地名个数,字符编码以及词典文件存储位置。
优选地,根据预先生成的词典文件和索引文件在地名数据库中依次进行候选地名查找、字符长度过滤、匹配度统计、相似度计算及相似度排序处理来识别出与所述查询地名相似的地名序列的步骤具体包括:
为了实现上述目的,本发明提出一种融合多字符特征的中文地名查询方法,包括以下步骤:
步骤211:查询地名分词,将查询地名按照一元分词方法进行中文分词,获得i个地名字符W1、W2、…、Wi;
步骤212:候选结果集合生成,以分词结果分别作为查询关键字,在索引文件中查询其对应的索引记录。之后对索引记录中的信息进行逆向解析,根据索引中位置信息查询词典文件中对应的地名数据,并将全部查询结果返回形成候选结果集合R={R1,R2,…,Rp};
步骤221:字符数量统计,对查询地名以及候选结果集合中地名的字符数量分别进行统计。记录查询地名P的字符数量为a,候选结果集合R中地名Rp的字符数量为b;
步骤222:过滤结果集合生成。设定阈值范围为k,当候选结果集合W中地名Wp满足abs(b-a)≤k时,将Wp保存到过滤结果集合C中;
步骤231:匹配度统计,对查询地名与过滤结果集合中每个地名的匹配度依次进行统计。N表示查询地名P与过滤结果集合C中地名Cq的相同字符数(匹配度)。相同字符的判断依据两个原则:一是局部顺序相同原则。对于查询地名P=p1p2…pn与过滤地名C=c1c2…cm,存在pjpj+1…pk与cscs+1…ct完全相同,其中k-j=t-s,则认为pjpj+1…pk为一个局部相似项q;二是整体顺序相同原则。构成相同字符的局部相似项必须是过滤地名中与查询地名局部相似项顺序相同的部分;
步骤232:相似度计算,基于匹配度统计结果,对过滤结果集合C中地名Cq依次计算其与查询地名P的相似度。本方法中按照下述公式进行地名相似度计算:
其中,P与C分别表示两个地名字符串,m与n分别表示P与C的字符总数,c表示P与C的字符匹配度,L1(i)与L2(i)分别表示匹配字符i在P与W中的匹配序,α与β分别表示匹配度与匹配序评价结果的权重,并且α与β的和为1。通常情况下α与β的取值依据黄金分割定律,分别取0.6与0.4。匹配序按照从左到右的顺序,从起始位置1开始以递增的方式计算。
步骤233:相似度排序,基于步骤42的相似度计算结果,对过滤结果集合C中地名Cq按照相似度结果由高到低进行排序,并将排名前N位的Cq作为地名查询结果。
本发明的有益效果:
本发明根据预先设置的词典文件和索引文件对中文地名数据库进行有规律编辑和标记,然后利用地名中的相同字符、字符数量、字符位置等语言特征,按照“单字索引生成-候选地名查询-字符长度过滤-相似程度排序”的主线进行地名查询,从而准确地从地名数据库中查找到与查询地名匹配的相关地名,进而快速找到用户想要查找的地名。
附图说明
图1为本发明一种融合多字符特征的中文地名查询方法的流程图。
图2为本发明索引文件存储示意图。
图3为本发明候选地名查询流程图。
图4为本发明一种融合多字符特征的中文地名查询装置的原理图。
图5为本发明一种设备的原理图。
元件标号说明
200 中文地名查询装置
210 接收模块
220 识别模块
230 显示模块
300 设备
310 处理器
320 存储器
330 显示器
S1~S232 步骤
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
【说明】
以下实施例通过在480万中文地名数据库中查询1700条测试地名作为实施示例来对本发明的技术方案做详细阐述和说明。
具体的,以480万条全国地名数据为例构造中文地名数据库,从中抽取1700条地名作为标准地名。对标准地名通过人为增加错误的方式构造测试集,错误类型涵盖各类不准确描述方式,并依据增加错误后与原有标准地名对比的准确度将其划分为5个等级(如表所示),其中,准确度定义如公式2所示:
式中,A表示查询地名P中与目标地名C相比准确的字符数量,N表示查询地名P字符数量,accu(P,C)表示P的准确度。
表1实施例测试集划分明细
实施例一
见图1,本实施例提供一种融合多字符特征的中文地名查询方法的流程图,如图所示,所述中文地名查询方法包括:
步骤S1:获取用户在查询终端输入的查询地名;
步骤S2:根据预先生成的词典文件和索引文件在地名数据库中依次进行候选地名查找、字符长度过滤、匹配度统计、相似度计算及相似度排序处理来识别出与所述查询地名相似的地名序列,并在所述查询终端予以显示;其中,所述词典文件是预先对所述地名数据库中所有地名按照无换行无间隔的方式依次排列得到的字符串文件;所述索引文件是预先存储有根据所述词典文件中所有不重复汉字形成的多条条索引记录的文件,每条所述索引记录至少包括地名个数,字符编码以及词典文件存储位置。
其中,词典文件和索引文件的生成方法可以参见图2。
具体的,词典文件的具体生成方式为:将原始中文地名数据库中的全部地名数据T1、T2、…、Tn,其中Tn由多个汉字字符v组成,即Tn=W1W2…Wi。即所有地名按照无换行无间隔的方式依次排列,形成一条连续的字符串St=T1T2…Tn,存储于词典文件中。
具体的,索引文件的具体生成方式为:索引文件是存储索引记录的物理文件,用于存储索引记录和词典文件中地名词项之间的对应关系,词典文件中包含的每一个不重复汉字Wi形成一条索引记录,每条索引记录中包含三部分信息:地名个数,字符编码以及词典文件存储位置。
更加具体来说,假设词典文件中共有n个不重复汉字Wi,i∈[1,n],Ci表示汉字Wi的UTF-8编码,Ni为词典文件中包含汉字Wi的地名个数,每个地名的起始位置与结束位置分别表示为Snm、Enm,那么地名在词典文件中的存储位置序列表示为<Sn1,En1,Sn2,En2…,Snm,Enm>。以地名“中岗子”为例,将“中岗子”存储到词典文件中,记录下Snm(“中”在字符串中位置1001)与Enm(“子”在字符串中位置1003)。之后在索引文件中生成“中”、“岗”、“子”3条索引记录,其中“中”字索引为[11079][0xE4B8AD][1001,1003,1015,1017,…,83475,83478],记录字符编码(0xE4B8AD)、词典文件中所有包含“中”字地名的个数(11079)及其存储位置,既有“中岗子”所在位置(1001,1003),还有“中夹滩”、“姜尾林中”等其它含“中”地名所在位置,如(1015,1017)(83475,83478)等。
作为一种优选实施方案,请参见图3,候选地名查询的步骤具体包括:
步骤S211:查询地名分词。具体的,将查询地名按照一元分词方法进行中文分词,获得i个地名字符W1、W2、…、Wi。如查询“中岗子”拆分为“中/岗/子”。
步骤S212:候选结果集合生成。具体的,以分词结果分别作为查询关键字,在索引文件中查询其对应的索引记录。之后对索引记录中的信息进行逆向解析,根据索引中位置信息查询词典文件中对应的地名数据,并将全部查询结果返回形成候选结果集合R={R1,R2,…,Rp}。
具体来说,以查询地名“中岗子”为例,首先将分词结果“中”作为查询关键字,将“中”字转换为UTF-8编码“0xE4B8AD”在索引文件中查询。查询到索引文件中“0xE4B8AD”项记录后,读取地名个数“3762”。可知词典文件中共有3762个地名包含“中”字,循环遍历索引项中的词典位置信息获取到各个包含“中”字的地名在词典文件中的存储位置,例如:(1015,1017)(83475,83478)。基于此位置信息,在词典文件中获取到对应起始位置上的全部地名信息,作为“中”字的候选地名。再依次获取到“岗”字与“子”字的候选地名,共同组合形成候选地名集合。
进一步地,在上述优选方案基础上,所述字符长度过滤的步骤具体包括:
步骤S221:字符数量统计。具体的,对查询地名以及候选结果集合中地名的字符数量分别进行统计。记录查询地名P的字符数量为a,候选结果集合R中地名Rp的字符数量为b。以查询地名“中岗子”为例,查询地名P的字符数量a为3。其候选地名集合中地名“中夹滩”字符数量为3,“姜尾林中”字符数量为4。
步骤S222:过滤结果集合生成。具体的,设定阈值范围为k,当候选结果集合W中地名Wp满足abs(b-a)≤k时,将Wp保存到过滤结果集合C中。以查询地名“中岗子”为例,设置阈值为P与Wp中较长地名字符数量的30%(不为整数采用四舍五入方式取整),则字符数量为2-4之间的候选地名得到保留,形成过滤结果集合。
进一步地,在上述优选方案基础上,所述匹配度统计和相似度计算的步骤具体包括:
步骤S231:匹配度统计。对查询地名与过滤结果集合中每个地名的匹配度依次进行统计。N表示查询地名P与过滤结果集合C中地名Cq的相同字符数(匹配度)。相同字符的判断依据两个原则:一是局部顺序相同原则。对于查询地名P=p1p2…pn与过滤地名C=c1c2…cm,存在pjpj+1…pk与cscs+1…ct完全相同,其中k-j=t-s,则认为pjpj+1…pk为一个局部相似项q;二是整体顺序相同原则。构成相同字符的局部相似项必须是过滤地名中与查询地名局部相似项顺序相同的部分。
具体来说,例如P=“集庆门大街”,C=“大街集庆门”,按照局部顺序相同原则,“集庆门”与“大街”分别是局部相似项q1、q2,P中顺序为q1q2,C中顺序为q2q1,以P顺序为基准,则符合整体顺序相同原则的是q1,因此相似字符为q1,匹配度为length(q1)。
步骤S232:相似度计算。具体的,基于匹配度统计结果,对过滤结果集合C中地名Cq依次计算其与查询地名P的相似度。本方法中按照公式(1)的方法进行地名相似度计算。
其中,P与C分别表示两个地名字符串,m与n分别表示P与C的字符总数,c表示P与C的字符匹配度,L1(i)与L2(i)分别表示匹配字符i在P与W中的匹配序,α与β分别表示匹配度与匹配序评价结果的权重,并且α与β的和为1。通常情况下α与β的取值依据黄金分割定律,分别取0.6与0.4。匹配序按照从左到右的顺序,从起始位置1开始以递增的方式计算。
以P=“师范大学”,C=“南京师范大学”为例,P与C的匹配字符为“师”、“范”、“大”、“学”。其在P中的匹配序为1(师)、2(范)、3(大)、4(学),在W中的匹配序位3(师)、4(范)、5(大)、6(学)。按照本文的相似度计算方法,P与C的相似度定义为:
在上述优选实施例的基础上,基于步骤S232的相似度计算结果,对过滤结果集合C中地名Cq按照相似度结果由高到低进行排序,并将排名前N位的Cq作为地名查询结果,即对相似度排序。
根据本发明提供的上述实施例,本发明做了如下实验分析:
由上述实例可知,本发明通过总结地名中的相同字符、字符数量、字符位置等语言特征,按照“单字索引生成-候选地名查询-字符长度过滤-相似程度排序”的主线进行地名查询,查找出词典文件中与查询地名相似度较高的标准地名,作为查询结果集合返回以达到准确高效的地名查询效果。本方法对不同准确程度查询地名的查询效果如下表:
表2实验结果评价指标统计
实验结果表明,本发明提出的融合多字符特征的中文地名查询方法不仅在大规模数据环境下保持较高的运行效率,而且能够在查询地名表述不准确的情况下较为准确地查询到目标地名。
实施例二
本实施例是根据上述实施例一中的方法提出的对应的产品实施方案,具体地,见图2,为一种融合多字符特征的中文地名查询装置的原理示意图,如图所示,该中文地名查询装置包括接收模块、识别模块和显示模块,所述接收模块适于获取用户在查询终端输入的查询地名;所述识别模块适于根据预先生成的词典文件和索引文件在地名数据库中依次进行候选地名查找、字符长度过滤、匹配度统计、相似度计算及相似度排序处理来识别出与所述查询地名相似的地名序列,所述词典文件是预先对所述地名数据库中所有地名按照无换行无间隔的方式依次排列得到的字符串文件;所述索引文件是预先存储有根据所述词典文件中所有不重复汉字形成的多条条索引记录的文件,每条所述索引记录至少包括地名个数,字符编码以及词典文件存储位置;所述显示模块适于在所述查询终端显示所述地名序列。
作为一种优选实施例,所述识别模块包括查询地名分词单元和候选结果集合生成单元,该查询地名分词单元适于将查询地名按照一元分词方法进行中文分词,获得i个地名字符W1、W2、…、Wi;该候选结果集合生成单元适于以分词结果分别作为查询关键字,在索引文件中查询其对应的索引记录。之后对索引记录中的信息进行逆向解析,根据索引中位置信息查询词典文件中对应的地名数据,并将全部查询结果返回形成候选结果集合R={R1,R2,…,Rp}。
进一步地,所述字符长度过滤包括字符数量统计单元和过滤结果集合生成单元,该字符数量统计单元,适于对查询地名以及候选结果集合中地名的字符数量分别进行统计。记录查询地名P的字符数量为a,候选结果集合R中地名Rp的字符数量为b;该过滤结果集合生成单元,适于设定阈值范围为k,当候选结果集合W中地名Wp满足abs(b-a)≤k时,将Wp保存到过滤结果集合C中。
进一步地,所述匹配度统计包括匹配度统计单元,适于对查询地名与过滤结果集合中每个地名的匹配度依次进行统计,所述匹配度的判定依据为查询地名P与过滤结果集合C中地名Cq的相同字符数。
进一步地,所述相似度计算包括相似度计算单元,适于基于匹配度统计结果对过滤结果集合C中地名Cq依次计算其与查询地名P的相似度,地名相似度计算的计算公式为:
其中,P与C分别表示两个地名字符串,m与n分别表示P与C的字符总数,c表示P与C的字符匹配度,L1(i)与L2(i)分别表示匹配字符i在P与W中的匹配序,α与β分别表示匹配度与匹配序评价结果的权重,并且α与β的和为1,匹配序按照从左到右的顺序,从起始位置1开始以递增的方式计算。
实施例三
本实施例提供了一种设备,包括处理器、存储器、显示器以及一个或多个程序,其特征在于,所述一个或多个程序被存储在所述存储器中并被配置为由所述处理器执行,所述一个或多个程序用于执行实施例一中所述的中文地名查询方法。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (11)
1.一种融合多字符特征的中文地名查询方法,其特征在于,包括:
S1)获取用户在查询终端输入的查询地名;
S2)根据预先生成的词典文件和索引文件在地名数据库中依次进行候选地名查找、字符长度过滤、匹配度统计、相似度计算及相似度排序处理来识别出与所述查询地名相似的地名序列,并在所述查询终端予以显示;
其中,所述词典文件是预先对所述地名数据库中所有地名按照无换行无间隔的方式依次排列得到的字符串文件;所述索引文件是预先存储有根据所述词典文件中所有不重复汉字形成的多条条索引记录的文件,每条所述索引记录至少包括地名个数,字符编码以及词典文件存储位置。
2.根据权利要求1所述的融合多字符特征的中文地名查询方法,其特征在于,所述候选地名查找包括:
S211)查询地名分词的步骤:将查询地名按照一元分词方法进行中文分词,获得i个地名字符W1、W2、…、Wi;
S212)候选结果集合生成的步骤:以分词结果分别作为查询关键字,在索引文件中查询其对应的索引记录。之后对索引记录中的信息进行逆向解析,根据索引中位置信息查询词典文件中对应的地名数据,并将全部查询结果返回形成候选结果集合R={R1,R2,…,Rp}。
3.根据权利要求2所述的融合多字符特征的中文地名查询方法,其特征在于,所述字符长度过滤包括:
S221)字符数量统计的步骤:对查询地名以及候选结果集合中地名的字符数量分别进行统计。记录查询地名P的字符数量为a,候选结果集合R中地名Rp的字符数量为b;
S222)过滤结果集合生成的步骤:设定阈值范围为k,当候选结果集合W中地名Wp满足abs(b-a)≤k时,将Wp保存到过滤结果集合C中。
4.根据权利要求3所述的融合多字符特征的中文地名查询方法,其特征在于,所述匹配度统计包括:
S23)匹配度统计的步骤:对查询地名与过滤结果集合中每个地名的匹配度依次进行统计,所述匹配度的判定依据为查询地名P与过滤结果集合C中地名Cq的相同字符数。
5.根据权利要求4所述的融合多字符特征的中文地名查询方法,其特征在于,所述相似度计算包括:
S24)相似度计算的步骤:基于匹配度统计结果对过滤结果集合C中地名Cq依次计算其与查询地名P的相似度,地名相似度计算的计算公式为:
其中,P与C分别表示两个地名字符串,m与n分别表示P与C的字符总数,c表示P与C的字符匹配度,L1(i)与L2(i)分别表示匹配字符i在P与W中的匹配序,α与β分别表示匹配度与匹配序评价结果的权重,并且α与β的和为1,匹配序按照从左到右的顺序,从起始位置1开始以递增的方式计算。
6.一种融合多字符特征的中文地名查询装置,其特征在于,包括:
接收模块,适于获取用户在查询终端输入的查询地名;
识别模块,适于根据预先生成的词典文件和索引文件在地名数据库中依次进行候选地名查找、字符长度过滤、匹配度统计、相似度计算及相似度排序处理来识别出与所述查询地名相似的地名序列,所述词典文件是预先对所述地名数据库中所有地名按照无换行无间隔的方式依次排列得到的字符串文件;所述索引文件是预先存储有根据所述词典文件中所有不重复汉字形成的多条条索引记录的文件,每条所述索引记录至少包括地名个数,字符编码以及词典文件存储位置;
显示模块,适于在所述查询终端显示所述地名序列。
7.根据权利要求6所述的融合多字符特征的中文地名查询装置,其特征在于,所述识别模块包括:
查询地名分词单元,适于将查询地名按照一元分词方法进行中文分词,获得i个地名字符W1、W2、…、Wi;
候选结果集合生成单元,适于以分词结果分别作为查询关键字,在索引文件中查询其对应的索引记录。之后对索引记录中的信息进行逆向解析,根据索引中位置信息查询词典文件中对应的地名数据,并将全部查询结果返回形成候选结果集合R={R1,R2,…,Rp}。
8.根据权利要求7所述的融合多字符特征的中文地名查询装置,其特征在于,所述字符长度过滤包括:
字符数量统计单元,适于对查询地名以及候选结果集合中地名的字符数量分别进行统计。记录查询地名P的字符数量为a,候选结果集合R中地名Rp的字符数量为b;
过滤结果集合生成单元,适于设定阈值范围为k,当候选结果集合W中地名Wp满足abs(b-a)≤k时,将Wp保存到过滤结果集合C中。
9.根据权利要求8所述的融合多字符特征的中文地名查询装置,其特征在于,所述匹配度统计包括:
匹配度统计单元,适于对查询地名与过滤结果集合中每个地名的匹配度依次进行统计,所述匹配度的判定依据为查询地名P与过滤结果集合C中地名Cq的相同字符数。
10.根据权利要求9所述的融合多字符特征的中文地名查询装置,其特征在于,所述相似度计算包括:
相似度计算单元,适于基于匹配度统计结果对过滤结果集合C中地名Cq依次计算其与查询地名P的相似度,地名相似度计算的计算公式为:
其中,P与C分别表示两个地名字符串,m与n分别表示P与C的字符总数,c表示P与C的字符匹配度,L1(i)与L2(i)分别表示匹配字符i在P与W中的匹配序,α与β分别表示匹配度与匹配序评价结果的权重,并且α与β的和为1,匹配序按照从左到右的顺序,从起始位置1开始以递增的方式计算。
11.一种设备,包括处理器、存储器、显示器以及一个或多个程序,其特征在于,所述一个或多个程序被存储在所述存储器中并被配置为由所述处理器执行,所述一个或多个程序用于执行权利要求1至5任意一项所述的中文地名查询方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810762114.8A CN109145161A (zh) | 2018-07-12 | 2018-07-12 | 中文地名查询方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810762114.8A CN109145161A (zh) | 2018-07-12 | 2018-07-12 | 中文地名查询方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109145161A true CN109145161A (zh) | 2019-01-04 |
Family
ID=64800252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810762114.8A Pending CN109145161A (zh) | 2018-07-12 | 2018-07-12 | 中文地名查询方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109145161A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110597960A (zh) * | 2019-09-17 | 2019-12-20 | 香港教育大学 | 一种个性化在线课程与职业双向推荐方法及系统 |
CN112215216A (zh) * | 2020-09-10 | 2021-01-12 | 中国东方电气集团有限公司 | 一种图像识别结果的字符串模糊匹配系统及方法 |
CN112507198A (zh) * | 2020-12-18 | 2021-03-16 | 北京百度网讯科技有限公司 | 用于处理查询文本的方法、装置、设备、介质和程序 |
CN112905728A (zh) * | 2021-02-26 | 2021-06-04 | 中国科学院电子学研究所苏州研究院 | 一种面向多源地名数据的高效融合与检索系统及方法 |
CN114579890A (zh) * | 2022-04-26 | 2022-06-03 | 阿里巴巴(中国)有限公司 | 上车点名称推荐方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102236706A (zh) * | 2011-06-17 | 2011-11-09 | 浙江大学 | 一种海量中文文件名快速模糊拼音查询方法 |
CN107622058A (zh) * | 2016-07-13 | 2018-01-23 | 北京四维图新科技股份有限公司 | 制作外文地名库的方法、装置、电子导航芯片及服务器 |
-
2018
- 2018-07-12 CN CN201810762114.8A patent/CN109145161A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102236706A (zh) * | 2011-06-17 | 2011-11-09 | 浙江大学 | 一种海量中文文件名快速模糊拼音查询方法 |
CN107622058A (zh) * | 2016-07-13 | 2018-01-23 | 北京四维图新科技股份有限公司 | 制作外文地名库的方法、装置、电子导航芯片及服务器 |
Non-Patent Citations (2)
Title |
---|
叶鹏 等: "《顾及字符特征的中文地名词典查询方法(网络公开日期)》" * |
叶鹏 等: "《顾及字符特征的中文地名词典查询方法》" * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110597960A (zh) * | 2019-09-17 | 2019-12-20 | 香港教育大学 | 一种个性化在线课程与职业双向推荐方法及系统 |
CN110597960B (zh) * | 2019-09-17 | 2022-11-15 | 香港教育大学 | 一种个性化在线课程与职业双向推荐方法及系统 |
CN112215216A (zh) * | 2020-09-10 | 2021-01-12 | 中国东方电气集团有限公司 | 一种图像识别结果的字符串模糊匹配系统及方法 |
CN112507198A (zh) * | 2020-12-18 | 2021-03-16 | 北京百度网讯科技有限公司 | 用于处理查询文本的方法、装置、设备、介质和程序 |
CN112905728A (zh) * | 2021-02-26 | 2021-06-04 | 中国科学院电子学研究所苏州研究院 | 一种面向多源地名数据的高效融合与检索系统及方法 |
CN114579890A (zh) * | 2022-04-26 | 2022-06-03 | 阿里巴巴(中国)有限公司 | 上车点名称推荐方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102314519B (zh) | 一种基于公安领域知识本体模型的信息搜索方法 | |
CN109145161A (zh) | 中文地名查询方法、装置及设备 | |
CN105302810B (zh) | 一种信息搜索方法和装置 | |
Sarawagi et al. | Open-domain quantity queries on web tables: annotation, response, and consensus models | |
CN107122413A (zh) | 一种基于图模型的关键词提取方法及装置 | |
CN103049575B (zh) | 一种主题自适应的学术会议搜索系统 | |
Yin et al. | Facto: a fact lookup engine based on web tables | |
CN109271477A (zh) | 一种借助互联网构建分类语料库的方法及系统 | |
CN104573028A (zh) | 实现智能问答的方法和系统 | |
CN104899273A (zh) | 一种基于话题和相对熵的网页个性化推荐方法 | |
CN106372073A (zh) | 一种数学公式检索方法与装置 | |
CN107194560A (zh) | Lbsn中基于好友聚类的社交搜索评价方法 | |
CN115563313A (zh) | 基于知识图谱的文献书籍语义检索系统 | |
Dhandapani et al. | Question answering system over semantic web | |
CN113946686A (zh) | 电力营销知识图谱构建方法及系统 | |
Chaudhuri et al. | Hidden features identification for designing an efficient research article recommendation system | |
CN116629258B (zh) | 基于复杂信息项数据的司法文书的结构化分析方法及系统 | |
Ritze | Web-scale web table to knowledge base matching | |
CN106919565B (zh) | 一种基于MapReduce的文档检索方法及系统 | |
Çelebi et al. | Automatic question answering for Turkish with pattern parsing | |
Ahmed et al. | Building multiview analyst profile from multidimensional query logs: from consensual to conflicting preferences | |
Pushplata et al. | An analytical assessment on document clustering | |
Khattak et al. | Context-aware search in dynamic repositories of digital documents | |
Dorosz et al. | Latent semantic analysis evaluation of conceptual dependency driven focused crawling | |
Michailoudis et al. | Towards Readability-Aware Recommendations of Source Code Snippets. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190104 |
|
WD01 | Invention patent application deemed withdrawn after publication |