CN106528526A - 一种基于贝叶斯分词算法的中文地址语义标注方法 - Google Patents

一种基于贝叶斯分词算法的中文地址语义标注方法 Download PDF

Info

Publication number
CN106528526A
CN106528526A CN201610880863.1A CN201610880863A CN106528526A CN 106528526 A CN106528526 A CN 106528526A CN 201610880863 A CN201610880863 A CN 201610880863A CN 106528526 A CN106528526 A CN 106528526A
Authority
CN
China
Prior art keywords
word
mark
administrative area
bayes
tagging
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610880863.1A
Other languages
English (en)
Other versions
CN106528526B (zh
Inventor
黄爽
李晓林
谢婷婷
严柯
刘志杰
段艳会
张玉敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Institute of Technology
Original Assignee
Wuhan Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Institute of Technology filed Critical Wuhan Institute of Technology
Priority to CN201610880863.1A priority Critical patent/CN106528526B/zh
Publication of CN106528526A publication Critical patent/CN106528526A/zh
Application granted granted Critical
Publication of CN106528526B publication Critical patent/CN106528526B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Remote Sensing (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于贝叶斯分词算法的中文地址语义标注方法,包括步骤S1:预设置针对中文地址数据进行语义标注的标注关系表;步骤S2:获取预切分、标注好的训练语料;步骤S3:对训练语料进行统计学习得到词频词典、标注关系词典、标注模式表;步骤S4:输入待标注地址字符串进行全切分;步骤S5:根据词频词典及贝叶斯分词算法获取概率最大的分词方案;步骤S6:根据标注关系词典对分词方案进行标注得到标注结果。标注关系表设定了一个规范化的标注模板;通过统计学习训练语料获得了包含词频词典、标注关系词典以及标注模式表的数据库;根据前述训练数据库匹配得到标注好的具有语义信息的中文地址,快速准确地完成了针对中文地址数据的语义解析。

Description

一种基于贝叶斯分词算法的中文地址语义标注方法
技术领域
本发明涉及中文地址解析技术领域,具体涉及一种基于贝叶斯分词算法的中文地址语义标注方法。
背景技术
随着互联网的发展,越来越多的网络内容直接来自于用户上传分享的信息。针对一些提供生活消费平台的网站,则会接收到成千上百万条用户上传的商户地址信息,而这些地址信息有很大一部分都是自由文本式的、无显示结构的且隐含语义性的附加说明信息。
在互联网位置服务中,地理位置可以有多种方式来表达,中文地址是其中之一。一个规范的中文地址应该包含完整的行政区划,并按照行政区划(省/市/县/乡/村)、路街、牌号、建筑、户室等次序来表达。通过一个完整规范的中文地址信息,我们可以得到与其相对应的地理位置。现有技术中,针对各种地址信息仅仅使用分词技术已无法满足对中文地址解析的需求。我们需要更进一步地将形式化的文本中文地址信息转化成结构化的地址表示形式,识别出文本地址信息中的地址元素和语义信息,也即对中文地址信息进行规范化。
中文地址信息的规范化一般包括地址和语义信息的识别和规范化,其中,地址识别指的是解析出文本地址信息中所包含的地址和附加说明信息;而规范化则是将解析出的地址切分标注成语义地址元素集。众所周知中文地址信息中各元素没有明确的分隔符,相关技术中针对中文地址元素的识别尚面临着解析完整性、多样性、歧义性等多种困难。因此,亟待提供一种将中文地址信息切分识别成规范化的地址语义信息的方法,为用户更好的提供服务。
发明内容
本发明要解决的技术问题是,提供一种基于贝叶斯分词算法的中文地址语义标注方法,对于以自然语言形式表示的地址信息,根据地址数据表达的语义特点,对中文地址信息进行语义标注。
本发明的技术方案是,提供一种基于贝叶斯分词算法的中文地址语义标注方法,包括步骤S1:预设置针对中文地址数据进行语义标注的标注关系表,其中,所述标注关系表中至少包含行政区名称以及用于标注所述行政区名称的行政区标记;
步骤S2:获取已预先切分、标注好NT条中文地址数据的集合T作为训练语料,设集合T={Ti},其中各条中文地址数据为Ti,且1≤i≤NT;
步骤S3:对集合T进行统计学习,所述统计学习具体包括步骤S31:统计集合T中切分出的各词语、各词语的词频、各词语与其相邻上一词语同时出现的频度值,并存入词频词典Word_dic中;步骤S32:统计各词语以及与该词语对应的标注关系,存入标注关系词典Taging_dic中;步骤S33:统计各条中文地址数据Ti的标注模式及其模式频度值,存入标注模式表Taging_mode中;
步骤S4:输入待标注的地址字符串S,并对地址字符串S进行全切分,得到切分集合W={Wi},1≤i≤2l-1,其中,l是地址字符串S的长度;
步骤S5:根据所述词频词典Word_dic中各词语的词频值,根据贝叶斯分词算法计算集合W={Wi}中每一个元素Wi的概率,并保存概率最大的分词方案记为seg_result;
步骤S6:根据所述标注关系词典Taging_dic中每个词语对应的标注关系,对所述分词方案seg_result中切分好的每一个词语进行标注,得到针对地址字符串S的标注结果tag_temp。
进一步地,所述贝叶斯分词算法包括:
设地址字符串S的第i种切分方式为Wi=w1w2L wn,则w1、w2、K、wn就代表了切分方式中的n个词,求最大概率分词方式即为:
若所有的词语确定,则句子唯一确定,P(S|Wi)=1,对于地址字符串S的多种分词方式,P(S)为常数,根据贝叶斯公式有:
应用二元语法模型(Bigram)根据联合概率公式有:
求解式(2)相当于寻找到联合概率最大的路径W',记为seg_result。
进一步地,在步骤S6之后,该方法还包括:
步骤S7:设不确定标注关系的词语对应的行政区标记为Unknown,判断所述标注结果tag_temp中是否包含不确定标注关系的词语,如果包含,则提取所述标注结果tag_temp中的词语标注序列并记为L,设L的长度为len;
步骤S8:选取标注模式表Taging_dic中标注模式长度为len的n个标注模式作为待匹配模式集合M={Mi},其中1≤i≤n,与L进行模式匹配,该模式匹配的方式包括:
步骤a:取待匹配模式集合M中的标注模式Mi与L进行匹配,设匹配起始位置为start=1,结束位置为end=len,匹配位置为j,1≤j≤len,使j=start;
步骤b:取词语标注序列L中的行政区标记lj与Mi中的行政区标记mj进行对比,如果lj≠Unknown,判断lj是否等于mj,如果li=mj相等,则j=j+1,继续步骤b;如果li≠mj,将此Mi从M={Mi}中删除;如果lj=Unknown,则j=j+1,继续步骤b;直到j=len;
步骤c:使i=i+1,继续步骤a,直到i=n,得到一个新的模式集合M’;
具体地,假定标注结果为“上海市/PRO闵行区/CITY碧秀路/ROAD 98弄/Unknown”,则其标注序列为:[PRO,CITY,ROAD,Unknown],这个序列的标注模式长度为4,为其标注词的个数。在标注模式表中选取长度为4的所有标注模式序列,然后进行匹配,匹配得出可能的标注序列为:
[PRO,CITY,ROAD,AREA],[PRO,CITY,ROAD,ROAD],[PRO,CITY,ROAD,POI],[PRO,CITY,ROAD,BNO],再取这几组标注序列中频度最大的一组。
步骤S9:根据所述标注模式表Taging_mode,取模式集合M’中模式频度值最大的模式作为标注结果,将tag_temp中的Unknown标注改变为模式频度值最大的模式中与Unknown标注位置相对应的行政区标记,得到新的标注结果并记为tag_result;
步骤S10:输出新的标注结果tag_result。
进一步地,在得到标注结果tag_result之后所述方法还包括:
将所述标注结果tag_temp中Unknown标注原来对应的词语,及该词语现在的标注关系添加到所述标注关系词典Taging_dic中。
进一步地,所述标注关系表中的行政区名称分类为至少十一级行政区类别,其中一级行政区名称至少包括省、自治区、直辖市、特别行政区;二级行政区名称至少包括地级市、自治州、地区、盟;三级行政区名称至少包括市辖区、县、县级市、旗、特区、林区;四级行政区名称至少包括区公所、乡、镇、苏木、街道办事处、商业区;五级行政区名称至少包括社区、居委会、行政村。
进一步地,所述标注关系表中的行政区名称至少还包括以下六类其一,其中第一类为基本区域限定物至少包括地片、区片、自然村、居民小区;其中第二类为街巷名至少包括道路、街、巷、胡同、弄;其中第三类为门址至少包括门牌号;其中第四类为兴趣点至少包括兴趣点、标志物;其中第五类为标点符号;其中第六类为不确定项对应不确定关系的名称。
本发明技术方案的有益效果为:通过预先设置针对中文地址信息进行标注的标注关系表,该表中至少包含行政区名称及对应标注的行政区标记,设定了一个规范化的标注模板;通过统计学习预设置的训练语料,并具体统计训练语料中的各词语及其相关词频,以及统计语料中各词语的标注关系及各条地址数据的标注模式,获得了包含词频词典、标注关系词典以及标注模式表的数据库;再通过对待标注地址字符串进行全切分、贝叶斯分词计算后,根据前述训练数据库匹配得到标注好的具有语义信息的中文地址,快速准确地完成了针对中文地址数据的语义解析。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
本发明提供了一种基于贝叶斯分词算法的中文地址语义标注方法,包括步骤S1:预设置针对中文地址数据进行语义标注的标注关系表,其中,所述的标注关系表中至少包含行政区名称以及用于标注所述行政区名称的行政区标记;
其中,一个规范化的中文地址应该包含多级从大到小的行政区划,本实施例中,行政区名称对应了多级行政区划,同一级行政区划可以包含多类名称,例如:省、自治区、直辖市和特别行政区应属于同一级行政区划,中文地址信息中包含这些行政区名称的都可以用同一行政区标记进行标注,下表示例了其中一种标注关系表:
表1标注关系表
步骤S2:获取已预先切分、标注好NT条中文地址数据的集合T作为训练语料,设集合T={Ti},其中各条中文地址数据为Ti,且1≤i≤NT;
其中,上述训练语料包含了多条中文地址数据,并且这些地址数据都是事先人工按照行政区划等级进行切分,并以上述标注关系表为依据进行了标注的,例如中文地址数据:“湖北省武汉市洪山区流芳大街1号”,可以人工切分为“湖北省|武汉市|洪山区|流芳大街|1号”,训练语料越多后续对待标注的中文地址数据解析的就更准确更迅速。
步骤S3:对集合T进行统计学习,所述统计学习具体包括:
步骤S31:统计集合T中切分出的各词语、各词语的词频、各词语与其相邻上一词语同时出现的频度值,并存入词频词典Word_dic中;
步骤S32:统计各词语以及与该词语对应的标注关系,存入标注关系词典Taging_dic中;
步骤S33:统计各条中文地址数据Ti的标注模式及其模式频度值,存入标注模式表Taging_mode中;
步骤S4:输入待标注的地址字符串S,并对地址字符串S进行全切分,得到切分集合W={Wi},1≤i≤2l-1,其中,l是地址字符串S的长度;
步骤S5:根据词频词典Word_dic中各词语的词频值,根据贝叶斯分词算法计算集合W={Wi}中每一个元素Wi的概率,并保存概率最大的分词方案记为seg_result;
步骤S6:根据标注关系词典Taging_dic中每个词语对应的标注关系,对所述分词方案seg_result中切分好的每一个词语进行标注,得到针对地址字符串S的标注结果tag_temp。
进一步地,本实施例中,上述贝叶斯分词算法具体包括:
设地址字符串S的第i种切分方式为Wi=w1w2L wn,则w1、w2、K、wn就代表了切分方式中的n个词,求最大概率分词方式即为:
若所有的词语确定,则句子唯一确定,P(S|Wi)=1,对于地址字符串S的多种分词方式,P(S)为常数,根据贝叶斯公式有:
应用二元语法模型(Bigram)根据联合概率公式有:
求解式(2)相当于寻找到联合概率最大的路径W',记为seg_result。
进一步地,在前述步骤S6之后,该标注方法还包括针对含有不确定标注关系词语的情况进行判断解析的步骤:
步骤S7:设不确定标注关系的词语对应的行政区标记为Unknown,判断所述标注结果tag_temp中是否包含不确定标注关系的词语,如果包含,则提取所述标注结果tag_temp中的词语标注序列并记为L,设L的长度为len;
步骤S8:选取标注模式表Taging_dic中标注模式长度为len的n个标注模式作为待匹配模式集合M={Mi},其中1≤i≤n,与L进行模式匹配,该模式匹配的方式包括:
步骤a:取待匹配模式集合M中的标注模式Mi与L进行匹配,设匹配起始位置为start=1,结束位置为end=len,匹配位置为j,1≤j≤len,使j=start;
步骤b:取词语标注序列L中的行政区标记lj与Mi中的行政区标记mj进行对比,如果lj≠Unknown,判断lj是否等于mj,如果li=mj相等,则j=j+1,继续步骤b;如果li≠mj,将此Mi从M={Mi}中删除;如果lj=Unknown,则j=j+1,继续步骤b;直到j=len;
步骤c:使i=i+1,继续步骤a,直到i=n,得到一个新的模式集合M’;
步骤S9:根据所述标注模式表Taging_mode,取模式集合M’中模式频度值最大的模式作为标注结果,将tag_temp中的Unknown标注改变为模式频度值最大的模式中与Unknown标注位置相对应的行政区标记,得到新的标注结果并记为tag_result;
步骤S10:输出新的标注结果tag_result。
进一步地,在得到标注结果tag_result之后上述标注方法还包括:
将前述标注结果tag_temp中Unknown标注原来对应的词语,及该词语现在的标注关系添加到所述标注关系词典Taging_dic中。
具体地,通过将原本不确定标注关系的词语进行解析并准确标注后,再将其原词语、现标注及其标注关系补充到标注关系词典中,可以不断完善充实标注关系词典数据库,为后续的中文地址标注提供更加优化的数据支持。
进一步地,如表1标注关系表所示,本实施例中,行政区名称可以分类为至少十一级行政区类别,其中一级行政区名称至少包括省、自治区、直辖市、特别行政区(对应标注为PRO);二级行政区名称至少包括地级市、自治州、地区、盟(对应标注为CITY);三级行政区名称至少包括市辖区、县、县级市、旗、特区、林区(对应标注为COUNTY);四级行政区名称至少包括区公所、乡、镇、苏木、街道办事处、商业区(对应标注为TOWN);五级行政区名称至少包括社区、居委会、行政村(对应标注为COMMITTEE)。
本实施例中,如表1所示,所述标注关系表中的行政区名称至少还包括以下六类其一,其中第一类为基本区域限定物至少包括地片、区片、自然村、居民小区(对应标注为AREA);其中第二类为街巷名至少包括道路、街、巷、胡同、弄(对应标注为ROAD);其中第三类为门址至少包括门牌号(对应标注为BNO);其中第四类为兴趣点至少包括兴趣点、标志物(对应标注为POI);其中第五类为标点符号(对应标注为PUN);其中第六类为不确定项对应不确定关系的名称(对应标注为Unknown)。
容易知道,各级行政区名称包括但不限于标注关系表中所列几项,各行政区名称所对应的行政区标记也可以用其他符号表示。
本发明提供的一种基于贝叶斯分词算法的中文地址语义标注方法,通过预先设置针对中文地址信息进行标注的标注关系表,该表中至少包含行政区名称及对应标注的行政区标记,设定了一个规范化的标注模板;通过统计学习预设置的训练语料,并具体统计训练语料中的各词语及其相关词频,以及统计语料中各词语的标注关系及各条地址数据的标注模式,获得了包含词频词典、标注关系词典以及标注模式表的数据库;再通过对待标注地址字符串进行全切分、贝叶斯分词计算后,根据前述训练数据库匹配得到标注好的具有语义信息的中文地址,快速准确地完成了针对中文地址数据的语义解析。
实施例1
下面以中文地址“南开区东马路137号仁恒美食广场”为例,对本发明的具体实施过程进行说明。
P1:设置标注关系表,该表可以如表1所示设计。
P2:获取已预先切分、标注好NT条中文地址数据的集合T作为训练语料,设集合T={Ti},其中各条中文地址数据为Ti,且1≤i≤NT。
P3:对集合T进行统计学习,统计学习的具体步骤包括:
P31:统计集合T中切分出的各词语、各词语的词频、各词语与其相邻上一词语同时出现的频度值,并存入词频词典Word_dic中;
P32:统计各词语以及与该词语对应的标注关系,存入标注关系词典Taging_dic中;
P33:统计各条中文地址数据Ti的标注模式及其模式频度值,存入标注模式表Taging_mode中;
P4:输入地址字符串S:“南开区东马路137号仁恒美食广场”,并对地址字符串S进行全切分,得到切分集合W={Wi},1≤i≤215
P5:根据词频词典Word_dic中词语的词频值,根据贝叶斯分词算法由公式(1)~(4):
计算切分集合W={Wi}中每一个Wi的概率,并保存结果,得到概率最大的分词方式为:
Pro(“南开区|东马路|137号|仁恒美食广场”)=1.5002813027442647E-4,则“南开区|东马路|137号|仁恒美食广场”记为seg_result。
P6:根据标注关系词典Taging_dic对切分结果“南开区|东马路|137号|仁恒美食广场”中切分好的每一个词进行标注,得到tag_temp:“南开区/CITY东马路/ROAD 137号/BNO仁恒美食广场/POI”;则获得字符串标注结果tag_result:“南开区/CITY东马路/ROAD137号/BNO仁恒美食广场/POI”。
P7:输出tag_result:“南开区/CITY东马路/ROAD 137号/BNO仁恒美食广场/POI”。
实施例2
以上实施例1是地址信息中不包含不确定标注关系词语的情况,下面再以中文地址“上海市闵行区碧秀路98弄”为例,对本发明的具体实施过程进行说明。
A1:设置标注关系表,该表可以如表1所示设计。
A2:获取已预先切分、标注好NT条中文地址数据的集合T作为训练语料,设集合T={Ti},其中各条中文地址数据为Ti,且1≤i≤NT。
A3:对集合T进行统计学习,统计学习的具体步骤包括:
A31:统计集合T中切分出的各词语、各词语的词频、各词语与其相邻上一词语同时出现的频度值,并存入词频词典Word_dic中;
A32:统计各词语以及与该词语对应的标注关系,存入标注关系词典Taging_dic中;
A33:统计各条中文地址数据Ti的标注模式及其模式频度值,存入标注模式表Taging_mode中;
A4:输入地址字符串S:“上海市闵行区碧秀路98弄”,并对地址字符串S进行全切分,得到切分集合W={Wi},1≤i≤211
A5:根据词频词典Word_dic中词语的词频值,根据贝叶斯分词算法由公式(1)~(4):
计算切分集合W={Wi}中每一个Wi的概率,并保存结果,得到概率最大的分词方式为:Pro(“上海市|闵行区|碧秀路|98弄”)=3.540560241591169E-4,则“上海市|闵行区|碧秀路|98弄”记为seg_result。
A6:根据标注关系词典Taging_dic对切分结果“上海市|闵行区|碧秀路|98弄”中切分好的每一个词进行标注得到tag_temp:“上海市/PRO闵行区/CITY碧秀路/ROAD 98弄/Unknown”。
A7:其中,标注结果“上海市/PRO闵行区/CITY碧秀路/ROAD 98弄/Unknown”中包含不确定标注关系(Unknown)的词语“98弄”,提取tag_temp中的词语标注序列,用L:[PRO,CITY,ROAD,Unknown]表示;L的长度用len表示;选取标注模式表Taging_dic中标注模式长度为len的n个标注模式作为待匹配模式集合M={Mi},1≤i≤n,与L进行模式匹配,匹配过程具体包括:
a:取待匹配模式集合M中的标注模式Mi,1≤i≤n,与L进行匹配,设匹配起始位置为start=1,结束位置为end=len,匹配位置为j,1≤j≤len,j=start。
b:取L中的标注lj与Mi中的标注mj进行对比,如果lj≠Unknown,判断lj是否等于mj,如果li=mj相等,则j=j+1,继续步骤(b);如果lj≠mj,将此Mi从M={Mi}中删除。如果lj=Unknown,则j=j+1,继续步骤(b)。直到j=len。
c:使i=i+1,继续步骤(a),直到i=n。得到一个新的模式集合M’。
d:根据标注模式表Taging_mode,假定模式集合M’中的频度值表如下:
表2模式集合M’中的频度值表
标注模式 频度值
[PRO,CITY,ROAD,AREA] 3
[PRO,CITY,ROAD,ROAD] 6
[PRO,CITY,ROAD,POI] 14
[PRO,CITY,ROAD,BNO] 137
取模式频度值最大的模式[PRO,CITY,ROAD,BNO]作为标注结果,将tag_temp中Unknown标注变为模式频度值最大的模式中与Unknown位置对应的标注关系,得到标注结果tag_result:“上海市/PRO闵行区/CITY碧秀路/ROAD 98弄/BNO”,并将“98弄/BNO”添加到标注关系词典Taging_dic中。
A8:输出tag_result:“上海市/PRO闵行区/CITY碧秀路/ROAD 98弄/BNO”。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种基于贝叶斯分词算法的中文地址语义标注方法,其特征在于,包括:
步骤S1:预设置针对中文地址数据进行语义标注的标注关系表,其中,所述标注关系表中至少包含行政区名称以及用于标注所述行政区名称的行政区标记;
步骤S2:获取已预先切分、标注好NT条中文地址数据的集合T作为训练语料,设集合T={Ti},其中各条中文地址数据为Ti,且1≤i≤NT;
步骤S3:对集合T进行统计学习,所述统计学习具体包括步骤S31:统计集合T中切分出的各词语、各词语的词频、各词语与其相邻上一词语同时出现的频度值,并存入词频词典Word_dic中;步骤S32:统计各词语以及与该词语对应的标注关系,存入标注关系词典Taging_dic中;步骤S33:统计各条中文地址数据Ti的标注模式及其模式频度值,存入标注模式表Taging_mode中;
步骤S4:输入待标注的地址字符串S,并对地址字符串S进行全切分,得到切分集合W={Wi},1≤i≤2l-1,其中,l是地址字符串S的长度;
步骤S5:根据所述词频词典Word_dic中各词语的词频值,根据贝叶斯分词算法计算集合W={Wi}中每一个元素Wi的概率,并保存概率最大的分词方案记为seg_result;
步骤S6:根据所述标注关系词典Taging_dic中每个词语对应的标注关系,对所述分词方案seg_result中切分好的每一个词语进行标注,得到针对地址字符串S的标注结果tag_temp。
2.根据权利要求1所述的一种基于贝叶斯分词算法的中文地址语义标注方法,其特征在于,所述贝叶斯分词算法包括:
设地址字符串S的第i种切分方式为Wi=w1w2…wn,则w1、w2、…、wn就代表了切分方式中的n个词,求最大概率分词方式即为:
W ′ = M a x ( P ( W 1 | S ) , P ( W 2 | S ) , ... , P ( W n | S ) ) = argmax W i P ( W i | S ) - - - ( 1 ) ,
若所有的词语确定,则句子唯一确定,P(S|Wi)=1,对于地址字符串S的多种分词方式,P(S)为常数,根据贝叶斯公式有:
W ′ = arg max W i P ( W i | S ) = arg max W i P ( S | W i ) P ( W i ) P ( S ) ∝ arg max W i P ( W i ) - - - ( 2 )
应用二元语法模型(Bigram)根据联合概率公式有:
P ( W i ) = Π i = 1 n P ( w n | w n - 1 ) - - - ( 3 )
W ′ = argmax W i P ( W i ) = argmax W i Π i = 1 n P ( w n | w n - 1 ) - - - ( 4 )
求解式(2)相当于寻找到联合概率最大的路径W',记为seg_result。
3.根据权利要求1所述的一种基于贝叶斯分词算法的中文地址语义标注方法,其特征在于,在步骤S6之后,该方法还包括:
步骤S7:设不确定标注关系的词语对应的行政区标记为Unknown,判断所述标注结果tag_temp中是否包含不确定标注关系的词语,如果包含,则提取所述标注结果tag_temp中的词语标注序列并记为L,设L的长度为len;
步骤S8:选取标注模式表Taging_dic中标注模式长度为len的n个标注模式作为待匹配模式集合M={Mi},其中1≤i≤n,与L进行模式匹配,该模式匹配的方式包括:
步骤a:取待匹配模式集合M中的标注模式Mi与L进行匹配,设匹配起始位置为start=1,结束位置为end=len,匹配位置为j,1≤j≤len,使j=start;
步骤b:取词语标注序列L中的行政区标记lj与Mi中的行政区标记mj进行对比,如果lj≠Unknown,判断lj是否等于mj,如果li=mj相等,则j=j+1,继续步骤b;如果li≠mj,将此Mi从M={Mi}中删除;如果lj=Unknown,则j=j+1,继续步骤b;直到j=len;
步骤c:使i=i+1,继续步骤a,直到i=n,得到一个新的模式集合M’;
步骤S9:根据所述标注模式表Taging_mode,取模式集合M’中模式频度值最大的模式作为标注结果,将tag_temp中的Unknown标注改变为模式频度值最大的模式中与Unknown标注位置相对应的行政区标记,得到新的标注结果并记为tag_result;
步骤S10:输出新的标注结果tag_result。
4.根据权利要求3所述的一种基于贝叶斯分词算法的中文地址语义标注方法,其特征在于,在得到标注结果tag_result之后所述方法还包括:
将所述标注结果tag_temp中Unknown标注原来对应的词语,及该词语现在的标注关系添加到所述标注关系词典Taging_dic中。
5.根据权利要求1所述的一种基于贝叶斯分词算法的中文地址语义标注方法,其特征在于,所述标注关系表中的行政区名称分类为至少五级行政区类别,其中一级行政区名称至少包括省、自治区、直辖市、特别行政区;二级行政区名称至少包括地级市、自治州、地区、盟;三级行政区名称至少包括市辖区、县、县级市、旗、特区、林区;四级行政区名称至少包括区公所、乡、镇、苏木、街道办事处、商业区;五级行政区名称至少包括社区、居委会、行政村。
6.根据权利要求5所述的一种基于贝叶斯分词算法的中文地址语义标注方法,其特征在于,所述标注关系表中的行政区名称至少还包括以下六类其一,其中第一类为基本区域限定物至少包括地片、区片、自然村、居民小区;其中第二类为街巷名至少包括道路、街、巷、胡同、弄;其中第三类为门址至少包括门牌号;其中第四类为兴趣点至少包括兴趣点、标志物;其中第五类为标点符号;其中第六类为不确定项对应不确定关系的名称。
CN201610880863.1A 2016-10-09 2016-10-09 一种基于贝叶斯分词算法的中文地址语义标注方法 Active CN106528526B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610880863.1A CN106528526B (zh) 2016-10-09 2016-10-09 一种基于贝叶斯分词算法的中文地址语义标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610880863.1A CN106528526B (zh) 2016-10-09 2016-10-09 一种基于贝叶斯分词算法的中文地址语义标注方法

Publications (2)

Publication Number Publication Date
CN106528526A true CN106528526A (zh) 2017-03-22
CN106528526B CN106528526B (zh) 2019-05-28

Family

ID=58333070

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610880863.1A Active CN106528526B (zh) 2016-10-09 2016-10-09 一种基于贝叶斯分词算法的中文地址语义标注方法

Country Status (1)

Country Link
CN (1) CN106528526B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107329950A (zh) * 2017-06-13 2017-11-07 武汉工程大学 一种基于无词典的中文地址分词方法
CN109145095A (zh) * 2017-06-16 2019-01-04 贵州小爱机器人科技有限公司 地名信息匹配方法、信息匹配方法、装置及计算机设备
CN109213990A (zh) * 2017-07-05 2019-01-15 菜鸟智能物流控股有限公司 一种特征提取方法、装置和服务器
CN109325222A (zh) * 2018-07-23 2019-02-12 广州都市圈网络科技有限公司 一种规格化地址描述方法
CN109359186A (zh) * 2018-10-25 2019-02-19 杭州时趣信息技术有限公司 一种确定地址信息的方法、装置和计算机可读存储介质
CN109977395A (zh) * 2019-02-14 2019-07-05 北京三快在线科技有限公司 处理地址文本的方法、装置、电子设备及可读存储介质
CN110019617A (zh) * 2017-12-05 2019-07-16 腾讯科技(深圳)有限公司 地址标识的确定方法和装置、存储介质、电子装置
CN111079418A (zh) * 2019-11-06 2020-04-28 科大讯飞股份有限公司 命名体识别方法、装置、电子设备和存储介质
CN111931478A (zh) * 2020-07-16 2020-11-13 丰图科技(深圳)有限公司 地址兴趣面模型的训练方法、地址的预测方法及装置
CN112417812A (zh) * 2020-11-26 2021-02-26 新智认知数据服务有限公司 地址标准化方法、系统及电子设备
CN113535869A (zh) * 2020-12-30 2021-10-22 百度(美国)有限责任公司 用于确定地图上的目的地的方法、设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750852A (zh) * 2015-04-14 2015-07-01 海量云图(北京)数据技术有限公司 中文地址数据的发现与分类方法
CN104850538A (zh) * 2015-05-08 2015-08-19 裴克铭管理咨询(上海)有限公司 基于规则和统计模型的中文地址复合分词技术
CN105677700A (zh) * 2015-12-23 2016-06-15 武汉工程大学 一种基于集合运算的中文地址行政区划解析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750852A (zh) * 2015-04-14 2015-07-01 海量云图(北京)数据技术有限公司 中文地址数据的发现与分类方法
CN104850538A (zh) * 2015-05-08 2015-08-19 裴克铭管理咨询(上海)有限公司 基于规则和统计模型的中文地址复合分词技术
CN105677700A (zh) * 2015-12-23 2016-06-15 武汉工程大学 一种基于集合运算的中文地址行政区划解析方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
于淼 等: "规则和统计相结合的中文地址翻译方法", 《中文信息学报》 *
刘丹 等: "基于贝叶斯网络的二元语法中文分词模型", 《计算机工程》 *
段艳会 等: "基于条件随机场的中文地址行政区划提取方法", 《武汉工程大学学报》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107329950A (zh) * 2017-06-13 2017-11-07 武汉工程大学 一种基于无词典的中文地址分词方法
CN109145095A (zh) * 2017-06-16 2019-01-04 贵州小爱机器人科技有限公司 地名信息匹配方法、信息匹配方法、装置及计算机设备
CN109145095B (zh) * 2017-06-16 2024-03-29 贵州小爱机器人科技有限公司 地名信息匹配方法、信息匹配方法、装置及计算机设备
CN109213990A (zh) * 2017-07-05 2019-01-15 菜鸟智能物流控股有限公司 一种特征提取方法、装置和服务器
CN110019617B (zh) * 2017-12-05 2022-05-20 腾讯科技(深圳)有限公司 地址标识的确定方法和装置、存储介质、电子装置
CN110019617A (zh) * 2017-12-05 2019-07-16 腾讯科技(深圳)有限公司 地址标识的确定方法和装置、存储介质、电子装置
CN109325222A (zh) * 2018-07-23 2019-02-12 广州都市圈网络科技有限公司 一种规格化地址描述方法
CN109359186A (zh) * 2018-10-25 2019-02-19 杭州时趣信息技术有限公司 一种确定地址信息的方法、装置和计算机可读存储介质
CN109359186B (zh) * 2018-10-25 2020-12-08 杭州时趣信息技术有限公司 一种确定地址信息的方法、装置和计算机可读存储介质
CN109977395A (zh) * 2019-02-14 2019-07-05 北京三快在线科技有限公司 处理地址文本的方法、装置、电子设备及可读存储介质
CN111079418A (zh) * 2019-11-06 2020-04-28 科大讯飞股份有限公司 命名体识别方法、装置、电子设备和存储介质
CN111079418B (zh) * 2019-11-06 2023-12-05 科大讯飞股份有限公司 命名体识别方法、装置、电子设备和存储介质
CN111931478A (zh) * 2020-07-16 2020-11-13 丰图科技(深圳)有限公司 地址兴趣面模型的训练方法、地址的预测方法及装置
CN111931478B (zh) * 2020-07-16 2023-11-10 丰图科技(深圳)有限公司 地址兴趣面模型的训练方法、地址的预测方法及装置
CN112417812A (zh) * 2020-11-26 2021-02-26 新智认知数据服务有限公司 地址标准化方法、系统及电子设备
CN112417812B (zh) * 2020-11-26 2024-05-17 新智认知数据服务有限公司 地址标准化方法、系统及电子设备
CN113535869A (zh) * 2020-12-30 2021-10-22 百度(美国)有限责任公司 用于确定地图上的目的地的方法、设备和存储介质

Also Published As

Publication number Publication date
CN106528526B (zh) 2019-05-28

Similar Documents

Publication Publication Date Title
CN106528526A (zh) 一种基于贝叶斯分词算法的中文地址语义标注方法
CN106777274B (zh) 一种中文旅游领域知识图谱构建方法及系统
CN104991889B (zh) 一种基于模糊分词的非多字词错误自动校对方法
CN106776711A (zh) 一种基于深度学习的中文医学知识图谱构建方法
CN104035975B (zh) 一种利用中文在线资源实现远程监督人物关系抽取的方法
CN106156004A (zh) 基于词向量的针对电影评论信息的情感分析系统及方法
CN108334493A (zh) 一种基于神经网络的题目知识点自动提取方法
CN104809176A (zh) 藏语实体关系抽取方法
CN107315738A (zh) 一种文本信息的创新度评估方法
CN110781670B (zh) 基于百科知识库和词向量的中文地名语义消歧方法
CN106909611A (zh) 一种基于文本信息抽取的酒店自动匹配方法
CN107343223A (zh) 视频片段的识别方法和装置
CN103886020B (zh) 一种房地产信息快速搜索方法
CN103473217B (zh) 从文本中抽取关键词的方法和装置
CN107145584A (zh) 一种基于n‑gram模型的简历解析方法
CN104484380A (zh) 个性化搜索方法及装置
CN111522901B (zh) 文本中地址信息的处理方法及装置
CN108897887A (zh) 一种基于知识图谱和用户相似度的教学资源推荐方法
CN107515934A (zh) 一种基于大数据的电影语义个性化标签优化方法
CN112527933A (zh) 一种基于空间位置和文本训练的中文地址关联方法
CN107133212A (zh) 一种基于集成学习和词句综合信息的文本蕴涵识别方法
CN104699797A (zh) 一种网页数据结构化解析方法和装置
CN114610892A (zh) 知识点标注方法、装置、电子设备和计算机存储介质
CN104598510A (zh) 一种事件触发词识别方法及装置
CN109033166A (zh) 一种人物属性抽取训练数据集构建方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant