CN112084771A

CN112084771A - 一种基于地址的单字权重统计方法

Info

Publication number: CN112084771A
Application number: CN202010708537.9A
Authority: CN
Inventors: 张贵军; 张晨; 武楚雄; 熊章宗; 周晓根
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-07-22
Filing date: 2020-07-22
Publication date: 2020-12-15
Anticipated expiration: 2040-07-22
Also published as: CN112084771B

Abstract

一种基于地址的单字权重统计方法，输入待统计的总数据表，记为T，其地址数据条数为N，同时建立一个存储表；首先使用逐字加一法对表T进行总字数统计，总字数记为AllWordSum；然后，使用逐字加一法统计表T中每个单字的出现次数perWordSum；同时，使用逐行加一法统计表T中每个单字的出现条数perWordRow；同时，通过计算得出正单字频率WF，逆单字频率IWF,单字加权权重WF‑IWF，按对应方式存储于结果Result中。本发明单字权重非单一化、系统存储率高。

Description

一种基于地址的单字权重统计方法

技术领域

本发明涉及地理信息领域，计算机应用领域，尤其涉及的是一种基于地址的单字权重统计方法。

背景技术

近年来随着我国信息化进程的加快，每天都会有海量的地址数据产生。现今电子设备的大力普及和通信网络的搭建，使得电子设备可以作为地址搜索的应用端，保障出行寻路的效率得到提升，进而在一定程度上解决诸如物流货物堆积、配送错误和能源消耗等成本问题，其中地址单字权重是实现地址搜索高效率的基础。

真实地址信息内容复杂，信息中会包含中文、数字、英文字母、符号四大信息，同时地址搜索是以相同权重进行匹配标准地址库。当搜索栏中出现生僻字、错别字、谐音字，这些特殊情况我们需要审核地址信息是否正确输入，因为字的重要性要随着它在总数据表中出现的次数正比增大，同时要随该字在各条数据出现的频率反比下降。

城市化程度与地址命名多样化随着中国发展而深化，地址信息的复杂度的提升与不恰当的匹配方式，对GIS系统是在系统计算资源利用率与系统有效性能率上都造成了一定的影响，而现有的地址单字权重统计方法还存在着一定的缺陷，难以支撑统计结果进一步优化。

因此，现有的地址单字权重统计方法存在不足，需要改进。

发明内容

为了克服通过传统的地址单字权重等方法获取实施成本较高且技术难度较大的不足，本发明提供一种基于地址的单字权重统计方法，通过读取数据表来匹配统计实现对地址单字的权重计算工作，实施成本较低且技术难度较小。

本发明解决其技术问题所采用的技术方案是：

一种基于地址的单字权重统计方法，所述方法包括以下步骤：

1)输入待统计的总数据表，记为T，其地址数据条数为N，表中保存着大量标准地址数据，同时创建一个Result表，每行数据存储为{w,perWordSum，perWordRow,wfItw},w字段代表该行的单字，perWordSum字段代表该单字在表T中出现的总次数，perWordRow字段代表该单字在表T中出现的总行数，wfItw字段代表该单字在表T中的权重值；

2)首先使用逐字加一法对表T进行总字数统计，总字数记为AllWordSum，过程如下：

2.1)选取的第n行数据，记为T_n，n初始值为1，通过移动数据字符下标j的方式判断是否将AllWordSum加1，j初始值为0；

2.2)若T_n下标j对应的字符非标点符号与空格符则将AllWordSum加1，并将下标j加1，移动到该行数据的下一个字符上，重复2.2)操作；

2.3)若T_n下标j已移动到该行的最后一个字符则将n加1，返回2.1)继续操作，直至n等于N，将n重置为1，j重置为0；

3)其次使用逐字加一法统计表T中每个单字的出现次数perWordSum和表T中每个单字的出现条数perWordRow，a代表在Result表对应的行下标，初始值为0，过程如下；

3.1)选取表T的第n行数据，记为T_n，逐一移动T_n字符下标j；

3.2)若该下标j对应的字符w非标点符号与空格符，且没有在Result表中出现，则在Result表新建一行，行下标a加1，Result表第a行的w设为T_n下标j对应的字符，该w与该a对应，perWordSum设为1，perWordRow设为1，返回3.1)继续操作；

3.3)若该下标j对应的字符w非标点符号与空格符，检索到w在Result第a行出现，则下标j加1，将第a行的perWordSum加1，判断该下标对应字符w对应的perWordRow是否已经加过1；

3.3.1)若下标j对应的字符w所在行，未将perWordRow加1，则将该行的perWordRow加1，返回3.1)继续操作；

3.3.2)若下标j对应的字符w所在行，已将perWordRow加1，则返回3.1)继续操作；

3.4)若T_n下标j已移动到该行的最后一个字上，则考虑n与N的关系；

3.4.1)若n≠N则将n加1，j置0，返回3.1)继续操作；

3.4.2)若n＝N则跳出3)操作；

4)通过每个单字的出现次数perWordSum与总字数AllWordSum之间对应关系，求正单字频率WF：

5)通过每个单字的出现条数perWordRow与数据总表数据条数N之间对应关系，求逆单字频率IWF：

6)通过正单字频率WF与逆单字频率IWF之间对应关系，求单字加权权重WF-IWF：

WF-IWF＝WF×IWF；

7)将统计数据与计算结果按Result要求的单行格式存储。

本发明的构思思路为：大多数地址匹配方法权重单一导致匹配具有精度差，而存储格式混乱，通过特定的统计办法可以将字权重进行独自计算，从而获得符合一定单字要求的权重信息。

本发明的有益效果主要表现在：通过引入统计方法，解决了地址匹配中单字权重相同的问题，同时简单的结果集具有较高的存储效率，可以满足实际应用中对地址匹配的处理要求。

附图说明

图1是一种基于地址的单字权重统计方法的流程图。

图2是统计数据结果表示意图。

具体实施方式

下面结合附图对本发明做进一步的描述。

参照图1和图2，一种基于地址的单字权重统计方法，包括以下步骤：

3)其次使用逐字加一法统计表T中每个单字的出现次数perWordSum和表T中每个单字的出现条数perWordRow，a代表在Result表对应的行下标，初始值为0，过程如下：

3.1)选取表T的第n行数据，记为T_n，逐一移动T_n字符下标j；

3.4.1)若n≠N则将n加1，j置0，返回3.1)继续操作；

3.4.2)若n＝N则跳出3)操作；

WF-IWF＝WF×IWF；

7)将统计数据与计算结果按Result要求的单行格式存储。

本实例，以某杭州地址数据表进行统计，一种基于地址的单字权重统计方法，包括以下步骤：

1)输入待统计的总数据表，记为T，其地址数据条数N，表中保存着大量标准地址数据，同时创建一个Result表，每行数据存储为{w,perWordSum，perWordRow,wfItw},w字段代表该行的单字，perWordSum字段代表该单字在表T中出现的总次数，perWordRow字段代表该单字在表T中出现的总行数，wfItw字段代表该单字在表T中的权重值；

2)首先使用逐字加一法对表T进行总字数统计，总字数记为AllWordSum，过程如下；

2.1)选取的第n行数据，记为T_n，n初始值为1，通过移动数据字符下标j的方式判断是否将AllWordSum加1，j初始值为0，过程如下：

2.2)当T_n下标j已移动到该行的最后一个字符则将n加1，此时n等于N，将n重置为1，j重置为0，此时AllWordSum等于2464674；

3.1)选取表T的第n行数据，记为T_n，逐一移动T_n字符下标j；

3.2)该下标j对应的字符w“联”非标点符号与空格符，且没有在Result表中出现，则在Result表新建一行，行下标a加1，Result表第a行的w设为T_n下标j对应的字符，该w与该a对应，perWordSum设为1，perWordRow设为1，返回3.1)继续操作；

3.4.1)若n≠N则将n加1，j置0，返回3.1)继续操作；

3.4.2)当n＝N则说明总数据表统计完毕，跳出3)操作；

4)通过每个单字的出现次数perWordSum与总字数AllWordSum之间对应关系，以“联”为例，求正单字频率WF：

5)通过每个单字的出现条数perWordRow与数据总表数据条数N之间对应关系，以“联”为例，求逆单字频率IWF：

6)通过正单字频率WF与逆单字频率IWF之间对应关系，求得“联”的单字加权权重WF-IWF：

WF-IWF＝0.00076×1.788＝0.002175；

7)将统计数据与计算结果按Result要求的单行格式存储。

以上阐述的是本发明给出的一个实施例表现出来的优良效果，显然本发明不仅适合上述实施例，在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

Claims

1.一种基于地址的单字权重统计方法，其特征在于，所述方法包括以下步骤：

3.1)选取表T的第n行数据，记为T_n，逐一移动T_n字符下标j；

3.4.1)若n≠N则将n加1，j置0，返回3.1)继续操作；

3.4.2)若n＝N则跳出3)操作；

6)通过正单字频率WF与逆单字频率IWF之间对应关系，求单字加权权重

WF-IWF：

WF-IWF＝WF×IWF；

7)将统计数据与计算结果按Result要求的单行格式存储。