具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种地名录入方法及装置,能够快速、准确地录入地名。
请参阅图1,本发明地名录入方法一个实施例包括:
101、获取用户输入的源地名;
用户在地名录入装置的输入界面输入源地名,本实施例的地名录入装置支持用户在同一文本框内输入由一个或多个源子地名组成的源地名。地名录入装置获取用户输入的源地名。
102、在标准地名数据库中查找与源地名匹配的标准地名,将标准地名展现给用户,展现给用户的标准地名由多个按级划分的标准子地名组成;
本实施例中的标准地名数据库可以根据国家统计局或其他权威机构提供的数据整理得到,当然也可以由用户自行创建,此处不做具体限定。标准地名数据库中包含标准地名,每个标准地名由一个或多个按级划分的标准子地名组成。例如,每个标准地名可以包含省、地、县、乡、村的详细名称。
地名录入装置查找与源地名匹配的标准地名,将标准地名展现给用户。本实施例中,地名录入装置展现给用户的标准地名是由多个按级划分的标准子地名组成的,是比较完整的地名。
103、接收用户的选择,完成录入。
因用户输入的源地名可以是完整的地名,也可以是部分的地名,所以最终查找到的与源地名匹配的标准地名可能只有一个,也可能有多个。如果最终展现给用户的标准地名只有一个,则在用户直接点选该标准地名后,地名录入装置即可完成地名的录入;如果最终展现给用户的标准地名有多个,则在用户根据实际情况点选其中一个标准地名后,地名录入装置即完成地名的录入。
本实施例中,地名录入装置可以支持用户在同一文本框内输入由一个或多个源子地名组成的源地名,然后根据用户输入的源地名在标准地名数据库中查找与源地名匹配的标准地名,返回给用户由多个按级划分的标准子地名组成的标准地名,即返回的是较为完整的标准地名,这样用户直接在返回的标准地名里选择正确的地名即可完成地名的录入,不需要用户逐级选择,整个录入过程简单、且可实现地名的快速、准确录入。
为便于理解,下面以一具体实施例对本发明实施例中地名录入方法进行描述,请参阅图2,本实施例方法包括:
201、获取用户输入的源地名;
用户在地名录入装置的输入界面输入源地名,本实施例的地名录入装置支持用户在同一文本框内输入由一个或多个源子地名组成的源地名。如果用户输入的源地名中包含多个源子地名,则用户可以按照中文地名书写习惯输入源地名,即将大地名输入在前,小地名输入在后。通常一个源地名会有多个字符串组成。地名录入装置获取用户输入的源地名。
202、对源地名中的字符串进行分词得到候选词集;
本实施例中,可以采用MMSEG分词工具对源地名中的字符串进行分词,当然也可以采用其他分词中文工具对源地名中的字符串进行分词,分词之后会形成一个候选词集,候选词集中的每一个候选词就是源地名中的一个源子地名。例如,用户输入的源地名为“北京市东城区”,分词之后得到的候选词集为{北京市,东城区}。
203、依次遍历候选词集中的每一个候选词,最终在标准地名数据库中找出与候选词集匹配的标准地名;
本实施例中的标准地名数据库可以根据国家统计局或其他权威机构提供的数据整理得到,当然也可以由用户自行创建,此处不做具体限定。标准地名数据库中包含标准地名,每个标准地名由一个或多个按级划分的标准子地名组成。例如,每个标准地名可以包含省、地、县、乡、村的详细名称。另外,标准地名数据库中还可以包含行政区划编码,行政区划编码可以使用固定长度、按位切分的数字结构表示;且行政区划编码与标准地名一一对应。标准地名数据库中的数据可如下表所示:
行政区划编码 |
标准地名 |
110000000000 |
{北京} |
110100000000 |
{北京,东城区} |
110101000000 |
{北京,东城区,东城区} |
110101001000 |
{北京,东城区,东城区,东华门} |
110101002000 |
{北京,东城区,东城区,景山} |
110101003000 |
{北京,东城区,东城区,交道口} |
110101004000 |
{北京,东城区,东城区,安定门} |
110101005000 |
{北京,东城区,东城区,北新桥} |
110101006000 |
{北京,东城区,东城区,东四} |
具体地,在标准地名数据库中找出与候选词集匹配的标准地名的方法为:地名录入装置先在标准地名数据库中查找与候选词集中的第一个候选词匹配的第一标准地名集。本实施例中所指的匹配可以是二者的完全相同,也可以是二者主要的部分相同,例如,对于“北京”与“北京市”,地名录入装置将会认为二者是相互匹配的。
假如在标准地名数据库中与候选词集中的第一个候选词“北京市”匹配的标准地名如上表所示,即与候选词集中的第一个候选词“北京市”匹配的标准地名有9个,那么第一标准地名集里就包括9个标准地名。
接下来地名录入装置在第一标准地名集里查找与候选词集中的第二个候选词匹配的第二标准地名集;
上面的例子中,在第一标准地名集里与第二候选词“东城区”匹配的标准地名有8个,这8个标准地名组成第二标准地名集,第二标准地名集中标准地名的数量小于第一标准地名集中标准地名的数量。可以看出,候选词集中所有候选词已匹配完毕,最终找到的与候选词集匹配的标准地名将为第二标准地名集里的8个标准地名。
204、将标准地名展现给用户;
上面的例子中,即地名录入装置将第二标准地名集里的8个标准地名以下拉列表的方式展现给用户。
205、接收用户的选择,完成录入。
用户从下拉列表中选择正确的地名,地名录入装置接收用户的选择,完成地名录入。
本实施例中,若用户输入的源地名就只是一个源子地名,例如“北京”,那么将展示给用户的是与“北京”匹配的,且由多个标准子地名的组成的标准地名,即展示给用户的是上述第二标准地名集里的8个标准地名。若用户输入的源地名为“北京市东城区东华门”,这是一个相对较为完整的源地名,那么最终展现给用户的就只有行政区划编码为110101001000对应的标准地名。本实施例中,地名录入装置最终录入的地名将为用户选择的与用户输入的源地名匹配的标准地名。
本实施例中,地名录入装置可以支持用户在同一文本框内输入由一个或多个源子地名组成的源地名,然后根据用户输入的源地名在标准地名数据库中查找与源地名匹配的标准地名,返回给用户由多个按级划分的标准子地名组成的标准地名,即返回的是相对较为完整的标准地名,这样用户直接在返回的标准地名里选择正确的地名即可完成地名的录入,整个录入过程简单,不需要用户逐级选择,且可实现地名的快速、准确录入。
为进一步理解本发明的技术方案,下面以另一具体实施例对本发明实施例中地名录入方法进行描述,请参阅图3。本实施例提供的地名录入方法与图2提供的地名录入方法的主要区别在于步骤303,寻找与候选词集中的候选词匹配的标准地名的方法不同。本实施例提供的方法是:直接在标准地名数据库中查找与候选词集中的所有候选词同时匹配的标准地名,相对来说查找速度较快;而图2提供的方法是:通过递进式逐级查找的方式找出与候选词集匹配的标准地名,查找的过程中可以有效避免逻辑误判。这两种方法均可用于实现本发明实施例提供的地名录入方法,在实际应用中,具体用哪种方法可由用户自行设定。
另外,本实施例的步骤301、302可分别参阅图2的步骤201、202,本实施例的步骤304、305可分别参阅图2的步骤204、205,此处不再赘述。
下面对本发明实施例中的地名录入装置进行描述,请参阅图3,本发明中地名录入装置一个实施例包括:
获取单元401,用于获取用户输入的源地名,源地名由用户在同一文本框内输入的一个或多个源子地名组成;
处理单元402,用于在标准地名数据库中查找与源地名匹配的标准地名,将标准地名展现给用户,展现给用户的标准地名由多个按级划分的标准子地名组成;
接收单元403,用于接收用户的选择,完成录入。
为便于理解,下面以一个实际应用场景对本实施例中的地名录入装置的各个单元之间的交互方式进行描述:
首先,用户可以在地名录入装置的输入界面输入源地名,本实施例的地名录入装置支持用户在同一文本框内输入由一个或多个源子地名组成的源地名。如果用户输入的源地名中包含多个源子地名,则用户可以按照中文地名书写习惯输入源地名,即将大地名输入在前,小地名输入在后。通常一个源地名会有多个字符串组成。获取单元401获取用户输入的源地名。
处理单元402在标准地名数据库中查找与获取单元401获取的源地名匹配的标准地名,将标准地名展现给用户,展现给用户的标准地名由多个按级划分的标准子地名组成。
具体地,处理单元402可先对源地名中的字符串进行分词得到候选词集。本实施例中,处理单元402可以采用MMSEG分词工具对源地名中的字符串进行分词,当然也可以采用其他分词中文工具对源地名中的字符串进行分词,分词之后会形成一个候选词集,候选词集中的每一个候选词就是源地名中的一个源子地名。
然后处理单元402可依次遍历候选词集中的每一个候选词,最终在标准地名数据库中找出与候选词集匹配的标准地名。具体地,处理单元302先在标准地名数据库中查找与候选词集中的第一个候选词匹配的第一标准地名集;然后在第一标准地名集里查找与候选词集中的第二个候选词匹配的第二标准地名集,最终找出与候选词集中的最后一个候选词匹配的标准地名,最终找到的与候选词集中的最后一个候选词匹配的标准地名为一个或多个。
本实施例中的标准地名数据库可以根据国家统计局或其他权威机构提供的数据整理得到,当然也可以由用户自行创建,此处不做具体限定。标准地名数据库中包含标准地名,每个标准地名由一个或多个按级划分的标准子地名组成。例如,每个标准地名可以包含省、地、县、乡、村的详细名称。
本实施例中所指的匹配可以是二者的完全相同,也可以是二者主要的部分相同,例如,对于“北京”与“北京市”,地名录入装置将会认为二者是相互匹配的。
当然,处理单元402也可以直接在标准地名数据库中查找与候选词集中的所有候选词同时匹配的标准地名,具体匹配方法此处不做具体限定。找到匹配的标准地名后,处理单元402将找到的标准地名以下拉列表的方式展现给用户。
用户从下拉列表中选择正确的地名,接收单元403接收用户的选择,完成地名录入,最终录入的地名将为用户选择的与用户输入的源地名匹配的标准地名。
本实施例中,获取单元可以获取用户在同一文本框内输入的由一个或多个源子地名组成的源地名,处理单元可以根据获取单元获取的源地名在标准地名数据库中查找与源地名匹配的标准地名,然后返回给用户由多个按级划分的标准子地名组成的标准地名,即返回的是相对较为完整的标准地名,这样接收单元只要接收用户在返回的标准地名里选择正确的地名即可完成地名的录入,整个录入过程不需要用户逐级选择,操作简单、且可实现地名的快速、准确录入。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘,U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上对本发明实施例所提供的一种地名录入方法及装置进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,因此,本说明书内容不应理解为对本发明的限制。