CN106528526B - 一种基于贝叶斯分词算法的中文地址语义标注方法 - Google Patents

一种基于贝叶斯分词算法的中文地址语义标注方法 Download PDF

Info

Publication number
CN106528526B
CN106528526B CN201610880863.1A CN201610880863A CN106528526B CN 106528526 B CN106528526 B CN 106528526B CN 201610880863 A CN201610880863 A CN 201610880863A CN 106528526 B CN106528526 B CN 106528526B
Authority
CN
China
Prior art keywords
word
mark
administrative area
mode
bayes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610880863.1A
Other languages
English (en)
Other versions
CN106528526A (zh
Inventor
黄爽
李晓林
谢婷婷
严柯
刘志杰
段艳会
张玉敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Institute of Technology
Original Assignee
Wuhan Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Institute of Technology filed Critical Wuhan Institute of Technology
Priority to CN201610880863.1A priority Critical patent/CN106528526B/zh
Publication of CN106528526A publication Critical patent/CN106528526A/zh
Application granted granted Critical
Publication of CN106528526B publication Critical patent/CN106528526B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Remote Sensing (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于贝叶斯分词算法的中文地址语义标注方法,包括步骤S1:预设置针对中文地址数据进行语义标注的标注关系表;步骤S2:获取预切分、标注好的训练语料;步骤S3:对训练语料进行统计学习得到词频词典、标注关系词典、标注模式表;步骤S4:输入待标注地址字符串进行全切分;步骤S5:根据词频词典及贝叶斯分词算法获取概率最大的分词方案;步骤S6:根据标注关系词典对分词方案进行标注得到标注结果。标注关系表设定了一个规范化的标注模板;通过统计学习训练语料获得了包含词频词典、标注关系词典以及标注模式表的数据库;根据前述训练数据库匹配得到标注好的具有语义信息的中文地址,快速准确地完成了针对中文地址数据的语义解析。

Description

一种基于贝叶斯分词算法的中文地址语义标注方法
技术领域
本发明涉及中文地址解析技术领域,具体涉及一种基于贝叶斯分词算法的中文地址语义标注方法。
背景技术
随着互联网的发展,越来越多的网络内容直接来自于用户上传分享的信息。针对一些提供生活消费平台的网站,则会接收到成千上百万条用户上传的商户地址信息,而这些地址信息有很大一部分都是自由文本式的、无显示结构的且隐含语义性的附加说明信息。
在互联网位置服务中,地理位置可以有多种方式来表达,中文地址是其中之一。一个规范的中文地址应该包含完整的行政区划,并按照行政区划(省/市/县/乡/村)、路街、牌号、建筑、户室等次序来表达。通过一个完整规范的中文地址信息,我们可以得到与其相对应的地理位置。现有技术中,针对各种地址信息仅仅使用分词技术已无法满足对中文地址解析的需求。我们需要更进一步地将形式化的文本中文地址信息转化成结构化的地址表示形式,识别出文本地址信息中的地址元素和语义信息,也即对中文地址信息进行规范化。
中文地址信息的规范化一般包括地址和语义信息的识别和规范化,其中,地址识别指的是解析出文本地址信息中所包含的地址和附加说明信息;而规范化则是将解析出的地址切分标注成语义地址元素集。众所周知中文地址信息中各元素没有明确的分隔符,相关技术中针对中文地址元素的识别尚面临着解析完整性、多样性、歧义性等多种困难。因此,亟待提供一种将中文地址信息切分识别成规范化的地址语义信息的方法,为用户更好的提供服务。
发明内容
本发明要解决的技术问题是,提供一种基于贝叶斯分词算法的中文地址语义标注方法,对于以自然语言形式表示的地址信息,根据地址数据表达的语义特点,对中文地址信息进行语义标注。
本发明的技术方案是,提供一种基于贝叶斯分词算法的中文地址语义标注方法,包括步骤S1:预设置针对中文地址数据进行语义标注的标注关系表,其中,所述标注关系表中至少包含行政区名称以及用于标注所述行政区名称的行政区标记;
步骤S2:获取已预先切分、标注好NT条中文地址数据的集合T作为训练语料,设集合T={Ti},其中各条中文地址数据为Ti,且1≤i≤NT;
步骤S3:对集合T进行统计学习,所述统计学习具体包括步骤S31:统计集合T中切分出的各词语、各词语的词频、各词语与其相邻上一词语同时出现的频度值,并存入词频词典Word_dic中;步骤S32:统计各词语以及与该词语对应的标注关系,存入标注关系词典Taging_dic中;步骤S33:统计各条中文地址数据Ti的标注模式及其模式频度值,存入标注模式表Taging_mode中;
步骤S4:输入待标注的地址字符串S,并对地址字符串S进行全切分,得到切分集合W={Wi},1≤i≤2l-1,其中,l是地址字符串S的长度;
步骤S5:根据所述词频词典Word_dic中各词语的词频值,根据贝叶斯分词算法计算集合W={Wi}中每一个元素Wi的概率,并保存概率最大的分词方案记为seg_result;
步骤S6:根据所述标注关系词典Taging_dic中每个词语对应的标注关系,对所述分词方案seg_result中切分好的每一个词语进行标注,得到针对地址字符串S的标注结果tag_temp。
进一步地,所述贝叶斯分词算法包括:
设地址字符串S的第i种切分方式为Wi=w1w2L wn,则w1、w2、K、wn就代表了切分方式中的n个词,求最大概率分词方式即为:
若所有的词语确定,则句子唯一确定,P(S|Wi)=1,对于地址字符串S的多种分词方式,P(S)为常数,根据贝叶斯公式有:
应用二元语法模型(Bigram)根据联合概率公式有:
求解式(2)相当于寻找到联合概率最大的路径W',记为seg_result。
进一步地,在步骤S6之后,该方法还包括:
步骤S7:设不确定标注关系的词语对应的行政区标记为Unknown,判断所述标注结果tag_temp中是否包含不确定标注关系的词语,如果包含,则提取所述标注结果tag_temp中的词语标注序列并记为L,设L的长度为len;
步骤S8:选取标注模式表Taging_dic中标注模式长度为len的n个标注模式作为待匹配模式集合M={Mi},其中1≤i≤n,与L进行模式匹配,该模式匹配的方式包括:
步骤a:取待匹配模式集合M中的标注模式Mi与L进行匹配,设匹配起始位置为start=1,结束位置为end=len,匹配位置为j,1≤j≤len,使j=start;
步骤b:取词语标注序列L中的行政区标记lj与Mi中的行政区标记mj进行对比,如果lj≠Unknown,判断lj是否等于mj,如果li=mj相等,则j=j+1,继续步骤b;如果li≠mj,将此Mi从M={Mi}中删除;如果lj=Unknown,则j=j+1,继续步骤b;直到j=len;
步骤c:使i=i+1,继续步骤a,直到i=n,得到一个新的模式集合M’;
具体地,假定标注结果为“上海市/PRO闵行区/CITY碧秀路/ROAD 98弄/Unknown”,则其标注序列为:[PRO,CITY,ROAD,Unknown],这个序列的标注模式长度为4,为其标注词的个数。在标注模式表中选取长度为4的所有标注模式序列,然后进行匹配,匹配得出可能的标注序列为:
[PRO,CITY,ROAD,AREA],[PRO,CITY,ROAD,ROAD],[PRO,CITY,ROAD,POI],[PRO,CITY,ROAD,BNO],再取这几组标注序列中频度最大的一组。
步骤S9:根据所述标注模式表Taging_mode,取模式集合M’中模式频度值最大的模式作为标注结果,将tag_temp中的Unknown标注改变为模式频度值最大的模式中与Unknown标注位置相对应的行政区标记,得到新的标注结果并记为tag_result;
步骤S10:输出新的标注结果tag_result。
进一步地,在得到标注结果tag_result之后所述方法还包括:
将所述标注结果tag_temp中Unknown标注原来对应的词语,及该词语现在的标注关系添加到所述标注关系词典Taging_dic中。
进一步地,所述标注关系表中的行政区名称分类为至少十一级行政区类别,其中一级行政区名称至少包括省、自治区、直辖市、特别行政区;二级行政区名称至少包括地级市、自治州、地区、盟;三级行政区名称至少包括市辖区、县、县级市、旗、特区、林区;四级行政区名称至少包括区公所、乡、镇、苏木、街道办事处、商业区;五级行政区名称至少包括社区、居委会、行政村。
进一步地,所述标注关系表中的行政区名称至少还包括以下六类其一,其中第一类为基本区域限定物至少包括地片、区片、自然村、居民小区;其中第二类为街巷名至少包括道路、街、巷、胡同、弄;其中第三类为门址至少包括门牌号;其中第四类为兴趣点至少包括兴趣点、标志物;其中第五类为标点符号;其中第六类为不确定项对应不确定关系的名称。
本发明技术方案的有益效果为:通过预先设置针对中文地址信息进行标注的标注关系表,该表中至少包含行政区名称及对应标注的行政区标记,设定了一个规范化的标注模板;通过统计学习预设置的训练语料,并具体统计训练语料中的各词语及其相关词频,以及统计语料中各词语的标注关系及各条地址数据的标注模式,获得了包含词频词典、标注关系词典以及标注模式表的数据库;再通过对待标注地址字符串进行全切分、贝叶斯分词计算后,根据前述训练数据库匹配得到标注好的具有语义信息的中文地址,快速准确地完成了针对中文地址数据的语义解析。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
本发明提供了一种基于贝叶斯分词算法的中文地址语义标注方法,包括步骤S1:预设置针对中文地址数据进行语义标注的标注关系表,其中,所述的标注关系表中至少包含行政区名称以及用于标注所述行政区名称的行政区标记;
其中,一个规范化的中文地址应该包含多级从大到小的行政区划,本实施例中,行政区名称对应了多级行政区划,同一级行政区划可以包含多类名称,例如:省、自治区、直辖市和特别行政区应属于同一级行政区划,中文地址信息中包含这些行政区名称的都可以用同一行政区标记进行标注,下表示例了其中一种标注关系表:
表1标注关系表
步骤S2:获取已预先切分、标注好NT条中文地址数据的集合T作为训练语料,设集合T={Ti},其中各条中文地址数据为Ti,且1≤i≤NT;
其中,上述训练语料包含了多条中文地址数据,并且这些地址数据都是事先人工按照行政区划等级进行切分,并以上述标注关系表为依据进行了标注的,例如中文地址数据:“湖北省武汉市洪山区流芳大街1号”,可以人工切分为“湖北省|武汉市|洪山区|流芳大街|1号”,训练语料越多后续对待标注的中文地址数据解析的就更准确更迅速。
步骤S3:对集合T进行统计学习,所述统计学习具体包括:
步骤S31:统计集合T中切分出的各词语、各词语的词频、各词语与其相邻上一词语同时出现的频度值,并存入词频词典Word_dic中;
步骤S32:统计各词语以及与该词语对应的标注关系,存入标注关系词典Taging_dic中;
步骤S33:统计各条中文地址数据Ti的标注模式及其模式频度值,存入标注模式表Taging_mode中;
步骤S4:输入待标注的地址字符串S,并对地址字符串S进行全切分,得到切分集合W={Wi},1≤i≤2l-1,其中,l是地址字符串S的长度;
步骤S5:根据词频词典Word_dic中各词语的词频值,根据贝叶斯分词算法计算集合W={Wi}中每一个元素Wi的概率,并保存概率最大的分词方案记为seg_result;
步骤S6:根据标注关系词典Taging_dic中每个词语对应的标注关系,对所述分词方案seg_result中切分好的每一个词语进行标注,得到针对地址字符串S的标注结果tag_temp。
进一步地,本实施例中,上述贝叶斯分词算法具体包括:
设地址字符串S的第i种切分方式为Wi=w1w2L wn,则w1、w2、K、wn就代表了切分方式中的n个词,求最大概率分词方式即为:
若所有的词语确定,则句子唯一确定,P(S|Wi)=1,对于地址字符串S的多种分词方式,P(S)为常数,根据贝叶斯公式有:
应用二元语法模型(Bigram)根据联合概率公式有:
求解式(2)相当于寻找到联合概率最大的路径W',记为seg_result。
进一步地,在前述步骤S6之后,该标注方法还包括针对含有不确定标注关系词语的情况进行判断解析的步骤:
步骤S7:设不确定标注关系的词语对应的行政区标记为Unknown,判断所述标注结果tag_temp中是否包含不确定标注关系的词语,如果包含,则提取所述标注结果tag_temp中的词语标注序列并记为L,设L的长度为len;
步骤S8:选取标注模式表Taging_dic中标注模式长度为len的n个标注模式作为待匹配模式集合M={Mi},其中1≤i≤n,与L进行模式匹配,该模式匹配的方式包括:
步骤a:取待匹配模式集合M中的标注模式Mi与L进行匹配,设匹配起始位置为start=1,结束位置为end=len,匹配位置为j,1≤j≤len,使j=start;
步骤b:取词语标注序列L中的行政区标记lj与Mi中的行政区标记mj进行对比,如果lj≠Unknown,判断lj是否等于mj,如果li=mj相等,则j=j+1,继续步骤b;如果li≠mj,将此Mi从M={Mi}中删除;如果lj=Unknown,则j=j+1,继续步骤b;直到j=len;
步骤c:使i=i+1,继续步骤a,直到i=n,得到一个新的模式集合M’;
步骤S9:根据所述标注模式表Taging_mode,取模式集合M’中模式频度值最大的模式作为标注结果,将tag_temp中的Unknown标注改变为模式频度值最大的模式中与Unknown标注位置相对应的行政区标记,得到新的标注结果并记为tag_result;
步骤S10:输出新的标注结果tag_result。
进一步地,在得到标注结果tag_result之后上述标注方法还包括:
将前述标注结果tag_temp中Unknown标注原来对应的词语,及该词语现在的标注关系添加到所述标注关系词典Taging_dic中。
具体地,通过将原本不确定标注关系的词语进行解析并准确标注后,再将其原词语、现标注及其标注关系补充到标注关系词典中,可以不断完善充实标注关系词典数据库,为后续的中文地址标注提供更加优化的数据支持。
进一步地,如表1标注关系表所示,本实施例中,行政区名称可以分类为至少十一级行政区类别,其中一级行政区名称至少包括省、自治区、直辖市、特别行政区(对应标注为PRO);二级行政区名称至少包括地级市、自治州、地区、盟(对应标注为CITY);三级行政区名称至少包括市辖区、县、县级市、旗、特区、林区(对应标注为COUNTY);四级行政区名称至少包括区公所、乡、镇、苏木、街道办事处、商业区(对应标注为TOWN);五级行政区名称至少包括社区、居委会、行政村(对应标注为COMMITTEE)。
本实施例中,如表1所示,所述标注关系表中的行政区名称至少还包括以下六类其一,其中第一类为基本区域限定物至少包括地片、区片、自然村、居民小区(对应标注为AREA);其中第二类为街巷名至少包括道路、街、巷、胡同、弄(对应标注为ROAD);其中第三类为门址至少包括门牌号(对应标注为BNO);其中第四类为兴趣点至少包括兴趣点、标志物(对应标注为POI);其中第五类为标点符号(对应标注为PUN);其中第六类为不确定项对应不确定关系的名称(对应标注为Unknown)。
容易知道,各级行政区名称包括但不限于标注关系表中所列几项,各行政区名称所对应的行政区标记也可以用其他符号表示。
本发明提供的一种基于贝叶斯分词算法的中文地址语义标注方法,通过预先设置针对中文地址信息进行标注的标注关系表,该表中至少包含行政区名称及对应标注的行政区标记,设定了一个规范化的标注模板;通过统计学习预设置的训练语料,并具体统计训练语料中的各词语及其相关词频,以及统计语料中各词语的标注关系及各条地址数据的标注模式,获得了包含词频词典、标注关系词典以及标注模式表的数据库;再通过对待标注地址字符串进行全切分、贝叶斯分词计算后,根据前述训练数据库匹配得到标注好的具有语义信息的中文地址,快速准确地完成了针对中文地址数据的语义解析。
实施例1
下面以中文地址“南开区东马路137号仁恒美食广场”为例,对本发明的具体实施过程进行说明。
P1:设置标注关系表,该表可以如表1所示设计。
P2:获取已预先切分、标注好NT条中文地址数据的集合T作为训练语料,设集合T={Ti},其中各条中文地址数据为Ti,且1≤i≤NT。
P3:对集合T进行统计学习,统计学习的具体步骤包括:
P31:统计集合T中切分出的各词语、各词语的词频、各词语与其相邻上一词语同时出现的频度值,并存入词频词典Word_dic中;
P32:统计各词语以及与该词语对应的标注关系,存入标注关系词典Taging_dic中;
P33:统计各条中文地址数据Ti的标注模式及其模式频度值,存入标注模式表Taging_mode中;
P4:输入地址字符串S:“南开区东马路137号仁恒美食广场”,并对地址字符串S进行全切分,得到切分集合W={Wi},1≤i≤215
P5:根据词频词典Word_dic中词语的词频值,根据贝叶斯分词算法由公式(1)~(4):
计算切分集合W={Wi}中每一个Wi的概率,并保存结果,得到概率最大的分词方式为:
Pro(“南开区|东马路|137号|仁恒美食广场”)=1.5002813027442647E-4,则“南开区|东马路|137号|仁恒美食广场”记为seg_result。
P6:根据标注关系词典Taging_dic对切分结果“南开区|东马路|137号|仁恒美食广场”中切分好的每一个词进行标注,得到tag_temp:“南开区/CITY东马路/ROAD 137号/BNO仁恒美食广场/POI”;则获得字符串标注结果tag_result:“南开区/CITY东马路/ROAD137号/BNO仁恒美食广场/POI”。
P7:输出tag_result:“南开区/CITY东马路/ROAD 137号/BNO仁恒美食广场/POI”。
实施例2
以上实施例1是地址信息中不包含不确定标注关系词语的情况,下面再以中文地址“上海市闵行区碧秀路98弄”为例,对本发明的具体实施过程进行说明。
A1:设置标注关系表,该表可以如表1所示设计。
A2:获取已预先切分、标注好NT条中文地址数据的集合T作为训练语料,设集合T={Ti},其中各条中文地址数据为Ti,且1≤i≤NT。
A3:对集合T进行统计学习,统计学习的具体步骤包括:
A31:统计集合T中切分出的各词语、各词语的词频、各词语与其相邻上一词语同时出现的频度值,并存入词频词典Word_dic中;
A32:统计各词语以及与该词语对应的标注关系,存入标注关系词典Taging_dic中;
A33:统计各条中文地址数据Ti的标注模式及其模式频度值,存入标注模式表Taging_mode中;
A4:输入地址字符串S:“上海市闵行区碧秀路98弄”,并对地址字符串S进行全切分,得到切分集合W={Wi},1≤i≤211
A5:根据词频词典Word_dic中词语的词频值,根据贝叶斯分词算法由公式(1)~(4):
计算切分集合W={Wi}中每一个Wi的概率,并保存结果,得到概率最大的分词方式为:Pro(“上海市|闵行区|碧秀路|98弄”)=3.540560241591169E-4,则“上海市|闵行区|碧秀路|98弄”记为seg_result。
A6:根据标注关系词典Taging_dic对切分结果“上海市|闵行区|碧秀路|98弄”中切分好的每一个词进行标注得到tag_temp:“上海市/PRO闵行区/CITY碧秀路/ROAD 98弄/Unknown”。
A7:其中,标注结果“上海市/PRO闵行区/CITY碧秀路/ROAD 98弄/Unknown”中包含不确定标注关系(Unknown)的词语“98弄”,提取tag_temp中的词语标注序列,用L:[PRO,CITY,ROAD,Unknown]表示;L的长度用len表示;选取标注模式表Taging_dic中标注模式长度为len的n个标注模式作为待匹配模式集合M={Mi},1≤i≤n,与L进行模式匹配,匹配过程具体包括:
a:取待匹配模式集合M中的标注模式Mi,1≤i≤n,与L进行匹配,设匹配起始位置为start=1,结束位置为end=len,匹配位置为j,1≤j≤len,j=start。
b:取L中的标注lj与Mi中的标注mj进行对比,如果lj≠Unknown,判断lj是否等于mj,如果li=mj相等,则j=j+1,继续步骤(b);如果lj≠mj,将此Mi从M={Mi}中删除。如果lj=Unknown,则j=j+1,继续步骤(b)。直到j=len。
c:使i=i+1,继续步骤(a),直到i=n。得到一个新的模式集合M’。
d:根据标注模式表Taging_mode,假定模式集合M’中的频度值表如下:
表2模式集合M’中的频度值表
标注模式 频度值
[PRO,CITY,ROAD,AREA] 3
[PRO,CITY,ROAD,ROAD] 6
[PRO,CITY,ROAD,POI] 14
[PRO,CITY,ROAD,BNO] 137
取模式频度值最大的模式[PRO,CITY,ROAD,BNO]作为标注结果,将tag_temp中Unknown标注变为模式频度值最大的模式中与Unknown位置对应的标注关系,得到标注结果tag_result:“上海市/PRO闵行区/CITY碧秀路/ROAD 98弄/BNO”,并将“98弄/BNO”添加到标注关系词典Taging_dic中。
A8:输出tag_result:“上海市/PRO闵行区/CITY碧秀路/ROAD 98弄/BNO”。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (5)

1.一种基于贝叶斯分词算法的中文地址语义标注方法,其特征在于,包括:
步骤S1:预设置针对中文地址数据进行语义标注的标注关系表,其中,所述标注关系表中至少包含行政区名称以及用于标注所述行政区名称的行政区标记;
步骤S2:获取已预先切分、标注好NT条中文地址数据的集合T作为训练语料,设集合T={Ti},其中各条中文地址数据为Ti,且1≤i≤NT;
步骤S3:对集合T进行统计学习,所述统计学习具体包括步骤S31:统计集合T中切分出的各词语、各词语的词频、各词语与其相邻上一词语同时出现的频度值,并存入词频词典Word_dic中;步骤S32:统计各词语以及与该词语对应的标注关系,存入标注关系词典Taging_dic中;步骤S33:统计各条中文地址数据Ti的标注模式及其模式频度值,存入标注模式表Taging_mode中;
步骤S4:输入待标注的地址字符串S,并对地址字符串S进行全切分,得到切分集合W={Wi},1≤i≤2l-1,其中,l是地址字符串S的长度;
步骤S5:根据所述词频词典Word_dic中各词语的词频值,根据贝叶斯分词算法计算集合W={Wi}中每一个元素Wi的概率,并保存概率最大的分词方案记为seg_result;
步骤S6:根据所述标注关系词典Taging_dic中每个词语对应的标注关系,对所述分词方案seg_result中切分好的每一个词语进行标注,得到针对地址字符串S的标注结果tag_temp;
在步骤S6之后,该方法还包括:
步骤S7:设不确定标注关系的词语对应的行政区标记为Unknown,判断所述标注结果tag_temp中是否包含不确定标注关系的词语,如果包含,则提取所述标注结果tag_temp中的词语标注序列并记为L,设L的长度为len;
步骤S8:选取标注模式表Taging_dic中标注模式长度为len的n个标注模式作为待匹配模式集合M={Mi},其中1≤i≤n,与L进行模式匹配,该模式匹配的方式包括:
步骤a:取待匹配模式集合M中的标注模式Mi与L进行匹配,设匹配起始位置为start=1,结束位置为end=len,匹配位置为j,1≤j≤len,使j=start;
步骤b:取词语标注序列L中的行政区标记lj与Mi中的行政区标记mj进行对比,如果lj≠Unknown,判断lj是否等于mj,如果li=mj相等,则j=j+1,继续步骤b;如果li≠mj,将此Mi从M={Mi}中删除;如果lj=Unknown,则j=j+1,继续步骤b;直到j=len;
步骤c:使i=i+1,继续步骤a,直到i=n,得到一个新的模式集合M’;
步骤S9:根据所述标注模式表Taging_mode,取模式集合M’中模式频度值最大的模式作为标注结果,将tag_temp中的Unknown标注改变为模式频度值最大的模式中与Unknown标注位置相对应的行政区标记,得到新的标注结果并记为tag_result;
步骤S10:输出新的标注结果tag_result。
2.根据权利要求1所述的一种基于贝叶斯分词算法的中文地址语义标注方法,其特征在于,所述贝叶斯分词算法包括:
设地址字符串S的第i种切分方式为Wi=w1w2…wn,则w1、w2、…、wn就代表了切分方式中的n个词,求最大概率分词方式即为:
若所有的词语确定,则句子唯一确定,P(S|Wi)=1,对于地址字符串S的多种分词方式,P(S)为常数,根据贝叶斯公式有:
应用二元语法模型(Bigram)根据联合概率公式有:
求解式(2)相当于寻找到联合概率最大的路径W',记为seg_result。
3.根据权利要求1所述的一种基于贝叶斯分词算法的中文地址语义标注方法,其特征在于,在得到标注结果tag_result之后所述方法还包括:
将所述标注结果tag_temp中Unknown标注原来对应的词语,及该词语现在的标注关系添加到所述标注关系词典Taging_dic中。
4.根据权利要求1所述的一种基于贝叶斯分词算法的中文地址语义标注方法,其特征在于,所述标注关系表中的行政区名称分类为至少五级行政区类别,其中一级行政区名称至少包括省、自治区、直辖市、特别行政区;二级行政区名称至少包括地级市、自治州、地区、盟;三级行政区名称至少包括市辖区、县、县级市、旗、特区、林区;四级行政区名称至少包括区公所、乡、镇、苏木、街道办事处、商业区;五级行政区名称至少包括社区、居委会、行政村。
5.根据权利要求4所述的一种基于贝叶斯分词算法的中文地址语义标注方法,其特征在于,所述标注关系表中的行政区名称至少还包括以下六类其一,其中第一类为基本区域限定物至少包括地片、区片、自然村、居民小区;其中第二类为街巷名至少包括道路、街、巷、胡同、弄;其中第三类为门址至少包括门牌号;其中第四类为兴趣点至少包括兴趣点、标志物;其中第五类为标点符号;其中第六类为不确定项对应不确定关系的名称。
CN201610880863.1A 2016-10-09 2016-10-09 一种基于贝叶斯分词算法的中文地址语义标注方法 Expired - Fee Related CN106528526B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610880863.1A CN106528526B (zh) 2016-10-09 2016-10-09 一种基于贝叶斯分词算法的中文地址语义标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610880863.1A CN106528526B (zh) 2016-10-09 2016-10-09 一种基于贝叶斯分词算法的中文地址语义标注方法

Publications (2)

Publication Number Publication Date
CN106528526A CN106528526A (zh) 2017-03-22
CN106528526B true CN106528526B (zh) 2019-05-28

Family

ID=58333070

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610880863.1A Expired - Fee Related CN106528526B (zh) 2016-10-09 2016-10-09 一种基于贝叶斯分词算法的中文地址语义标注方法

Country Status (1)

Country Link
CN (1) CN106528526B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107329950B (zh) * 2017-06-13 2021-01-05 武汉工程大学 一种基于无词典的中文地址分词方法
CN109145095B (zh) * 2017-06-16 2024-03-29 贵州小爱机器人科技有限公司 地名信息匹配方法、信息匹配方法、装置及计算机设备
CN109213990A (zh) * 2017-07-05 2019-01-15 菜鸟智能物流控股有限公司 一种特征提取方法、装置和服务器
CN110019617B (zh) * 2017-12-05 2022-05-20 腾讯科技(深圳)有限公司 地址标识的确定方法和装置、存储介质、电子装置
CN109325222A (zh) * 2018-07-23 2019-02-12 广州都市圈网络科技有限公司 一种规格化地址描述方法
CN109359186B (zh) * 2018-10-25 2020-12-08 杭州时趣信息技术有限公司 一种确定地址信息的方法、装置和计算机可读存储介质
CN109977395A (zh) * 2019-02-14 2019-07-05 北京三快在线科技有限公司 处理地址文本的方法、装置、电子设备及可读存储介质
CN111079418B (zh) * 2019-11-06 2023-12-05 科大讯飞股份有限公司 命名体识别方法、装置、电子设备和存储介质
CN111931478B (zh) * 2020-07-16 2023-11-10 丰图科技(深圳)有限公司 地址兴趣面模型的训练方法、地址的预测方法及装置
CN112417812B (zh) * 2020-11-26 2024-05-17 新智认知数据服务有限公司 地址标准化方法、系统及电子设备
US20220207235A1 (en) * 2020-12-30 2022-06-30 Baidu Usa Llc Method, apparatus and storage medium for determining destination on map

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750852A (zh) * 2015-04-14 2015-07-01 海量云图(北京)数据技术有限公司 中文地址数据的发现与分类方法
CN104850538A (zh) * 2015-05-08 2015-08-19 裴克铭管理咨询(上海)有限公司 基于规则和统计模型的中文地址复合分词技术
CN105677700A (zh) * 2015-12-23 2016-06-15 武汉工程大学 一种基于集合运算的中文地址行政区划解析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750852A (zh) * 2015-04-14 2015-07-01 海量云图(北京)数据技术有限公司 中文地址数据的发现与分类方法
CN104850538A (zh) * 2015-05-08 2015-08-19 裴克铭管理咨询(上海)有限公司 基于规则和统计模型的中文地址复合分词技术
CN105677700A (zh) * 2015-12-23 2016-06-15 武汉工程大学 一种基于集合运算的中文地址行政区划解析方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于条件随机场的中文地址行政区划提取方法;段艳会 等;《武汉工程大学学报》;20151115;第37卷(第11期);47-51页第1-2节
基于贝叶斯网络的二元语法中文分词模型;刘丹 等;《计算机工程》;20100105;第36卷(第1期);12-14页第3节
规则和统计相结合的中文地址翻译方法;于淼 等;《中文信息学报》;20120515;303-308

Also Published As

Publication number Publication date
CN106528526A (zh) 2017-03-22

Similar Documents

Publication Publication Date Title
CN106528526B (zh) 一种基于贝叶斯分词算法的中文地址语义标注方法
CN109492077B (zh) 基于知识图谱的石化领域问答方法及系统
CN106777274B (zh) 一种中文旅游领域知识图谱构建方法及系统
CN109857990B (zh) 一种基于文档结构与深度学习的金融类公告信息抽取方法
CN107315738B (zh) 一种文本信息的创新度评估方法
CN103268348B (zh) 一种用户查询意图识别方法
CN105243129A (zh) 商品属性特征词聚类方法
CN101079024B (zh) 一种专业词表动态生成系统和方法
CN102955833B (zh) 一种通讯地址识别、标准化的方法
CN103020293B (zh) 一种移动应用的本体库的构建方法及系统
CN104035975B (zh) 一种利用中文在线资源实现远程监督人物关系抽取的方法
CN110781670B (zh) 基于百科知识库和词向量的中文地名语义消歧方法
CN103440311A (zh) 一种地名实体识别的方法及系统
CN105653706A (zh) 一种基于文献内容知识图谱的多层引文推荐方法
CN106909611B (zh) 一种基于文本信息抽取的酒店自动匹配方法
CN104881401A (zh) 一种专利文献聚类方法
CN103559199B (zh) 网页信息抽取方法和装置
CN103473217B (zh) 从文本中抽取关键词的方法和装置
CN103886020B (zh) 一种房地产信息快速搜索方法
CN103984771B (zh) 一种英文微博中地理兴趣点抽取和感知其时间趋势的方法
CN112364172A (zh) 一种政务公文领域知识图谱构建方法
CN107145584A (zh) 一种基于n‑gram模型的简历解析方法
CN104778256A (zh) 一种领域问答系统咨询的快速可增量聚类方法
CN105653522A (zh) 一种针对植物领域的非分类关系识别方法
CN107247751A (zh) 基于lda主题模型的内容推荐方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190528