CN112084771A - 一种基于地址的单字权重统计方法 - Google Patents

一种基于地址的单字权重统计方法 Download PDF

Info

Publication number
CN112084771A
CN112084771A CN202010708537.9A CN202010708537A CN112084771A CN 112084771 A CN112084771 A CN 112084771A CN 202010708537 A CN202010708537 A CN 202010708537A CN 112084771 A CN112084771 A CN 112084771A
Authority
CN
China
Prior art keywords
character
word
subscript
data
line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010708537.9A
Other languages
English (en)
Other versions
CN112084771B (zh
Inventor
张贵军
张晨
武楚雄
熊章宗
周晓根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202010708537.9A priority Critical patent/CN112084771B/zh
Publication of CN112084771A publication Critical patent/CN112084771A/zh
Application granted granted Critical
Publication of CN112084771B publication Critical patent/CN112084771B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Remote Sensing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Document Processing Apparatus (AREA)

Abstract

一种基于地址的单字权重统计方法,输入待统计的总数据表,记为T,其地址数据条数为N,同时建立一个存储表;首先使用逐字加一法对表T进行总字数统计,总字数记为AllWordSum;然后,使用逐字加一法统计表T中每个单字的出现次数perWordSum;同时,使用逐行加一法统计表T中每个单字的出现条数perWordRow;同时,通过计算得出正单字频率WF,逆单字频率IWF,单字加权权重WF‑IWF,按对应方式存储于结果Result中。本发明单字权重非单一化、系统存储率高。

Description

一种基于地址的单字权重统计方法
技术领域
本发明涉及地理信息领域,计算机应用领域,尤其涉及的是一种基于地址的单字权重统计方法。
背景技术
近年来随着我国信息化进程的加快,每天都会有海量的地址数据产生。现今电子设备的大力普及和通信网络的搭建,使得电子设备可以作为地址搜索的应用端,保障出行寻路的效率得到提升,进而在一定程度上解决诸如物流货物堆积、配送错误和能源消耗等成本问题,其中地址单字权重是实现地址搜索高效率的基础。
真实地址信息内容复杂,信息中会包含中文、数字、英文字母、符号四大信息,同时地址搜索是以相同权重进行匹配标准地址库。当搜索栏中出现生僻字、错别字、谐音字,这些特殊情况我们需要审核地址信息是否正确输入,因为字的重要性要随着它在总数据表中出现的次数正比增大,同时要随该字在各条数据出现的频率反比下降。
城市化程度与地址命名多样化随着中国发展而深化,地址信息的复杂度的提升与不恰当的匹配方式,对GIS系统是在系统计算资源利用率与系统有效性能率上都造成了一定的影响,而现有的地址单字权重统计方法还存在着一定的缺陷,难以支撑统计结果进一步优化。
因此,现有的地址单字权重统计方法存在不足,需要改进。
发明内容
为了克服通过传统的地址单字权重等方法获取实施成本较高且技术难度较大的不足,本发明提供一种基于地址的单字权重统计方法,通过读取数据表来匹配统计实现对地址单字的权重计算工作,实施成本较低且技术难度较小。
本发明解决其技术问题所采用的技术方案是:
一种基于地址的单字权重统计方法,所述方法包括以下步骤:
1)输入待统计的总数据表,记为T,其地址数据条数为N,表中保存着大量标准地址数据,同时创建一个Result表,每行数据存储为{w,perWordSum,perWordRow,wfItw},w字段代表该行的单字,perWordSum字段代表该单字在表T中出现的总次数,perWordRow字段代表该单字在表T中出现的总行数,wfItw字段代表该单字在表T中的权重值;
2)首先使用逐字加一法对表T进行总字数统计,总字数记为AllWordSum,过程如下:
2.1)选取的第n行数据,记为Tn,n初始值为1,通过移动数据字符下标j的方式判断是否将AllWordSum加1,j初始值为0;
2.2)若Tn下标j对应的字符非标点符号与空格符则将AllWordSum加1,并将下标j加1,移动到该行数据的下一个字符上,重复2.2)操作;
2.3)若Tn下标j已移动到该行的最后一个字符则将n加1,返回2.1)继续操作,直至n等于N,将n重置为1,j重置为0;
3)其次使用逐字加一法统计表T中每个单字的出现次数perWordSum和表T中每个单字的出现条数perWordRow,a代表在Result表对应的行下标,初始值为0,过程如下;
3.1)选取表T的第n行数据,记为Tn,逐一移动Tn字符下标j;
3.2)若该下标j对应的字符w非标点符号与空格符,且没有在Result表中出现,则在Result表新建一行,行下标a加1,Result表第a行的w设为Tn下标j对应的字符,该w与该a对应,perWordSum设为1,perWordRow设为1,返回3.1)继续操作;
3.3)若该下标j对应的字符w非标点符号与空格符,检索到w在Result第a行出现,则下标j加1,将第a行的perWordSum加1,判断该下标对应字符w对应的perWordRow是否已经加过1;
3.3.1)若下标j对应的字符w所在行,未将perWordRow加1,则将该行的perWordRow加1,返回3.1)继续操作;
3.3.2)若下标j对应的字符w所在行,已将perWordRow加1,则返回3.1)继续操作;
3.4)若Tn下标j已移动到该行的最后一个字上,则考虑n与N的关系;
3.4.1)若n≠N则将n加1,j置0,返回3.1)继续操作;
3.4.2)若n=N则跳出3)操作;
4)通过每个单字的出现次数perWordSum与总字数AllWordSum之间对应关系,求正单字频率WF:
Figure BDA0002595674130000031
5)通过每个单字的出现条数perWordRow与数据总表数据条数N之间对应关系,求逆单字频率IWF:
Figure BDA0002595674130000032
6)通过正单字频率WF与逆单字频率IWF之间对应关系,求单字加权权重WF-IWF:
WF-IWF=WF×IWF;
7)将统计数据与计算结果按Result要求的单行格式存储。
本发明的构思思路为:大多数地址匹配方法权重单一导致匹配具有精度差,而存储格式混乱,通过特定的统计办法可以将字权重进行独自计算,从而获得符合一定单字要求的权重信息。
本发明的有益效果主要表现在:通过引入统计方法,解决了地址匹配中单字权重相同的问题,同时简单的结果集具有较高的存储效率,可以满足实际应用中对地址匹配的处理要求。
附图说明
图1是一种基于地址的单字权重统计方法的流程图。
图2是统计数据结果表示意图。
具体实施方式
下面结合附图对本发明做进一步的描述。
参照图1和图2,一种基于地址的单字权重统计方法,包括以下步骤:
1)输入待统计的总数据表,记为T,其地址数据条数为N,表中保存着大量标准地址数据,同时创建一个Result表,每行数据存储为{w,perWordSum,perWordRow,wfItw},w字段代表该行的单字,perWordSum字段代表该单字在表T中出现的总次数,perWordRow字段代表该单字在表T中出现的总行数,wfItw字段代表该单字在表T中的权重值;
2)首先使用逐字加一法对表T进行总字数统计,总字数记为AllWordSum,过程如下:
2.1)选取的第n行数据,记为Tn,n初始值为1,通过移动数据字符下标j的方式判断是否将AllWordSum加1,j初始值为0;
2.2)若Tn下标j对应的字符非标点符号与空格符则将AllWordSum加1,并将下标j加1,移动到该行数据的下一个字符上,重复2.2)操作;
2.3)若Tn下标j已移动到该行的最后一个字符则将n加1,返回2.1)继续操作,直至n等于N,将n重置为1,j重置为0;
3)其次使用逐字加一法统计表T中每个单字的出现次数perWordSum和表T中每个单字的出现条数perWordRow,a代表在Result表对应的行下标,初始值为0,过程如下:
3.1)选取表T的第n行数据,记为Tn,逐一移动Tn字符下标j;
3.2)若该下标j对应的字符w非标点符号与空格符,且没有在Result表中出现,则在Result表新建一行,行下标a加1,Result表第a行的w设为Tn下标j对应的字符,该w与该a对应,perWordSum设为1,perWordRow设为1,返回3.1)继续操作;
3.3)若该下标j对应的字符w非标点符号与空格符,检索到w在Result第a行出现,则下标j加1,将第a行的perWordSum加1,判断该下标对应字符w对应的perWordRow是否已经加过1;
3.3.1)若下标j对应的字符w所在行,未将perWordRow加1,则将该行的perWordRow加1,返回3.1)继续操作;
3.3.2)若下标j对应的字符w所在行,已将perWordRow加1,则返回3.1)继续操作;
3.4)若Tn下标j已移动到该行的最后一个字上,则考虑n与N的关系;
3.4.1)若n≠N则将n加1,j置0,返回3.1)继续操作;
3.4.2)若n=N则跳出3)操作;
4)通过每个单字的出现次数perWordSum与总字数AllWordSum之间对应关系,求正单字频率WF:
Figure BDA0002595674130000041
5)通过每个单字的出现条数perWordRow与数据总表数据条数N之间对应关系,求逆单字频率IWF:
Figure BDA0002595674130000051
6)通过正单字频率WF与逆单字频率IWF之间对应关系,求单字加权权重WF-IWF:
WF-IWF=WF×IWF;
7)将统计数据与计算结果按Result要求的单行格式存储。
本实例,以某杭州地址数据表进行统计,一种基于地址的单字权重统计方法,包括以下步骤:
1)输入待统计的总数据表,记为T,其地址数据条数N,表中保存着大量标准地址数据,同时创建一个Result表,每行数据存储为{w,perWordSum,perWordRow,wfItw},w字段代表该行的单字,perWordSum字段代表该单字在表T中出现的总次数,perWordRow字段代表该单字在表T中出现的总行数,wfItw字段代表该单字在表T中的权重值;
2)首先使用逐字加一法对表T进行总字数统计,总字数记为AllWordSum,过程如下;
2.1)选取的第n行数据,记为Tn,n初始值为1,通过移动数据字符下标j的方式判断是否将AllWordSum加1,j初始值为0,过程如下:
2.2)当Tn下标j已移动到该行的最后一个字符则将n加1,此时n等于N,将n重置为1,j重置为0,此时AllWordSum等于2464674;
3)其次使用逐字加一法统计表T中每个单字的出现次数perWordSum和表T中每个单字的出现条数perWordRow,a代表在Result表对应的行下标,初始值为0,过程如下;
3.1)选取表T的第n行数据,记为Tn,逐一移动Tn字符下标j;
3.2)该下标j对应的字符w“联”非标点符号与空格符,且没有在Result表中出现,则在Result表新建一行,行下标a加1,Result表第a行的w设为Tn下标j对应的字符,该w与该a对应,perWordSum设为1,perWordRow设为1,返回3.1)继续操作;
3.3)若该下标j对应的字符w非标点符号与空格符,检索到w在Result第a行出现,则下标j加1,将第a行的perWordSum加1,判断该下标对应字符w对应的perWordRow是否已经加过1;
3.3.1)若下标j对应的字符w所在行,未将perWordRow加1,则将该行的perWordRow加1,返回3.1)继续操作;
3.3.2)若下标j对应的字符w所在行,已将perWordRow加1,则返回3.1)继续操作;
3.4)若Tn下标j已移动到该行的最后一个字上,则考虑n与N的关系;
3.4.1)若n≠N则将n加1,j置0,返回3.1)继续操作;
3.4.2)当n=N则说明总数据表统计完毕,跳出3)操作;
4)通过每个单字的出现次数perWordSum与总字数AllWordSum之间对应关系,以“联”为例,求正单字频率WF:
Figure BDA0002595674130000061
5)通过每个单字的出现条数perWordRow与数据总表数据条数N之间对应关系,以“联”为例,求逆单字频率IWF:
Figure BDA0002595674130000062
6)通过正单字频率WF与逆单字频率IWF之间对应关系,求得“联”的单字加权权重WF-IWF:
WF-IWF=0.00076×1.788=0.002175;
7)将统计数据与计算结果按Result要求的单行格式存储。
以上阐述的是本发明给出的一个实施例表现出来的优良效果,显然本发明不仅适合上述实施例,在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

Claims (1)

1.一种基于地址的单字权重统计方法,其特征在于,所述方法包括以下步骤:
1)输入待统计的总数据表,记为T,其地址数据条数为N,表中保存着大量标准地址数据,同时创建一个Result表,每行数据存储为{w,perWordSum,perWordRow,wfItw},w字段代表该行的单字,perWordSum字段代表该单字在表T中出现的总次数,perWordRow字段代表该单字在表T中出现的总行数,wfItw字段代表该单字在表T中的权重值;
2)首先使用逐字加一法对表T进行总字数统计,总字数记为AllWordSum,过程如下:
2.1)选取的第n行数据,记为Tn,n初始值为1,通过移动数据字符下标j的方式判断是否将AllWordSum加1,j初始值为0;
2.2)若Tn下标j对应的字符非标点符号与空格符则将AllWordSum加1,并将下标j加1,移动到该行数据的下一个字符上,重复2.2)操作;
2.3)若Tn下标j已移动到该行的最后一个字符则将n加1,返回2.1)继续操作,直至n等于N,将n重置为1,j重置为0;
3)其次使用逐字加一法统计表T中每个单字的出现次数perWordSum和表T中每个单字的出现条数perWordRow,a代表在Result表对应的行下标,初始值为0,过程如下:
3.1)选取表T的第n行数据,记为Tn,逐一移动Tn字符下标j;
3.2)若该下标j对应的字符w非标点符号与空格符,且没有在Result表中出现,则在Result表新建一行,行下标a加1,Result表第a行的w设为Tn下标j对应的字符,该w与该a对应,perWordSum设为1,perWordRow设为1,返回3.1)继续操作;
3.3)若该下标j对应的字符w非标点符号与空格符,检索到w在Result第a行出现,则下标j加1,将第a行的perWordSum加1,判断该下标对应字符w对应的perWordRow是否已经加过1;
3.3.1)若下标j对应的字符w所在行,未将perWordRow加1,则将该行的perWordRow加1,返回3.1)继续操作;
3.3.2)若下标j对应的字符w所在行,已将perWordRow加1,则返回3.1)继续操作;
3.4)若Tn下标j已移动到该行的最后一个字上,则考虑n与N的关系;
3.4.1)若n≠N则将n加1,j置0,返回3.1)继续操作;
3.4.2)若n=N则跳出3)操作;
4)通过每个单字的出现次数perWordSum与总字数AllWordSum之间对应关系,求正单字频率WF:
Figure FDA0002595674120000021
5)通过每个单字的出现条数perWordRow与数据总表数据条数N之间对应关系,求逆单字频率IWF:
Figure FDA0002595674120000022
6)通过正单字频率WF与逆单字频率IWF之间对应关系,求单字加权权重
WF-IWF:
WF-IWF=WF×IWF;
7)将统计数据与计算结果按Result要求的单行格式存储。
CN202010708537.9A 2020-07-22 2020-07-22 一种基于地址的单字权重统计方法 Active CN112084771B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010708537.9A CN112084771B (zh) 2020-07-22 2020-07-22 一种基于地址的单字权重统计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010708537.9A CN112084771B (zh) 2020-07-22 2020-07-22 一种基于地址的单字权重统计方法

Publications (2)

Publication Number Publication Date
CN112084771A true CN112084771A (zh) 2020-12-15
CN112084771B CN112084771B (zh) 2024-06-18

Family

ID=73735348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010708537.9A Active CN112084771B (zh) 2020-07-22 2020-07-22 一种基于地址的单字权重统计方法

Country Status (1)

Country Link
CN (1) CN112084771B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0935006A (ja) * 1995-07-18 1997-02-07 Fujitsu Ltd 文字認識装置
CN1206158A (zh) * 1997-07-02 1999-01-27 松下电器产业株式会社 关键字提取系统及采用该系统的文本检索系统
US20090182728A1 (en) * 2008-01-16 2009-07-16 Arlen Anderson Managing an Archive for Approximate String Matching
US20130275466A1 (en) * 2010-12-31 2013-10-17 Yan Xiao Retrieval method and system
CN103970747A (zh) * 2013-01-24 2014-08-06 爱帮聚信(北京)科技有限公司 网络侧计算机对搜索结果进行排序的数据处理方法
CN109033086A (zh) * 2018-08-03 2018-12-18 银联数据服务有限公司 一种地址解析、匹配的方法及装置
CN109784308A (zh) * 2019-02-01 2019-05-21 腾讯科技(深圳)有限公司 一种地址纠错方法、装置及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0935006A (ja) * 1995-07-18 1997-02-07 Fujitsu Ltd 文字認識装置
CN1206158A (zh) * 1997-07-02 1999-01-27 松下电器产业株式会社 关键字提取系统及采用该系统的文本检索系统
US20090182728A1 (en) * 2008-01-16 2009-07-16 Arlen Anderson Managing an Archive for Approximate String Matching
US20130275466A1 (en) * 2010-12-31 2013-10-17 Yan Xiao Retrieval method and system
CN103970747A (zh) * 2013-01-24 2014-08-06 爱帮聚信(北京)科技有限公司 网络侧计算机对搜索结果进行排序的数据处理方法
CN109033086A (zh) * 2018-08-03 2018-12-18 银联数据服务有限公司 一种地址解析、匹配的方法及装置
CN109784308A (zh) * 2019-02-01 2019-05-21 腾讯科技(深圳)有限公司 一种地址纠错方法、装置及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
应申;李威阳;贺彪;王维;赵朝彬;: "基于城市地址树的地址文本匹配方法", 地理信息世界, no. 06, 25 December 2017 (2017-12-25) *
朱烨行;张明杰;李艳玲;: "基于字符串权重的热点话题发现设计与实现", 电脑编程技巧与维护, no. 20, 18 October 2017 (2017-10-18) *

Also Published As

Publication number Publication date
CN112084771B (zh) 2024-06-18

Similar Documents

Publication Publication Date Title
US8380737B2 (en) Computing intersection of sets of numbers
EP3805945A1 (en) Search infrastructure
US11216618B2 (en) Query processing method, apparatus, server and storage medium
CN112256842B (zh) 用于文本聚类的方法、电子设备和存储介质
US10296497B2 (en) Storing a key value to a deleted row based on key range density
CN111753514B (zh) 一种专利申请文本的自动生成方法和装置
CN101620607A (zh) 全文检索方法及系统
CN105404677A (zh) 一种基于树形结构的检索方法
CN104199977A (zh) 一种基于数据库中数据创建信息搜索的方法
CN116151220A (zh) 分词模型训练方法、分词处理方法和装置
CN112417101B (zh) 一种关键词提取的方法及相关装置
CN107133321B (zh) 页面的搜索特性的分析方法和分析装置
CN112084771A (zh) 一种基于地址的单字权重统计方法
CN116029284B (zh) 中文子串提取方法、系统、存储介质及电子设备
CN112765976A (zh) 文本相似度计算方法、装置、设备及存储介质
US10671644B1 (en) Adaptive column set composition
CN117150005A (zh) 文本分析方法、装置、电子设备及存储介质
CN111324776A (zh) 图嵌入模型的训练方法及装置、计算设备及可读介质
CN111460088A (zh) 相似文本的检索方法、装置和系统
EP3822822A1 (en) Relationship network generation method and device, electronic apparatus, and storage medium
CN103609091A (zh) 一种数据传输的方法和装置
CN101169722A (zh) 一种在输入编码时显示名称的方法和装置
CN112287676A (zh) 新词发现方法、装置、电子设备及介质
CN115408491B (zh) 一种历史数据的文本检索方法及系统
US20200320054A1 (en) Computer program for providing database management

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant