CN104933024A - 中文地址分词标注方法 - Google Patents

中文地址分词标注方法 Download PDF

Info

Publication number
CN104933024A
CN104933024A CN201510240706.XA CN201510240706A CN104933024A CN 104933024 A CN104933024 A CN 104933024A CN 201510240706 A CN201510240706 A CN 201510240706A CN 104933024 A CN104933024 A CN 104933024A
Authority
CN
China
Prior art keywords
participle
word
label
address
mark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510240706.XA
Other languages
English (en)
Other versions
CN104933024B (zh
Inventor
王明兴
贾西贝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Huaao Data Technology Co Ltd
Original Assignee
Shenzhen Huaao Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Huaao Data Technology Co Ltd filed Critical Shenzhen Huaao Data Technology Co Ltd
Priority to CN201510240706.XA priority Critical patent/CN104933024B/zh
Publication of CN104933024A publication Critical patent/CN104933024A/zh
Priority to PCT/CN2015/094374 priority patent/WO2016179987A1/zh
Application granted granted Critical
Publication of CN104933024B publication Critical patent/CN104933024B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种中文地址分词标注方法。该方法包括:步骤11、人工分词标注挑选出的地址数据作为训练数据;步骤12、对出现的单个阿拉伯数字字符或英文字母字符以及多个连续阿拉伯数字字符或英文字母字符,以指定的单个阿拉伯数字字符或英文字母字符替换;步骤13、将训练数据转换成CRF++工具需要的格式;步骤14、定义特征模板;步骤15、建立分词标注模型;步骤16、地址中出现的单个阿拉伯数字字符或英文字母字符以及多个连续阿拉伯数字字符或英文字母字符,以该指定的单个阿拉伯数字字符或英文字母字符替换;步骤17、用CRF++工具分词标注;步骤18、还原替换前的阿拉伯数字字符或英文字母字符。本发明的中文地址分词标注方法的准确率高。

Description

中文地址分词标注方法
技术领域
本发明涉及数据处理技术领域,尤其涉及一种中文地址分词标注方法。
背景技术
人们在填写收件人地址、办公地址、家庭住址等地址信息时一般都是将省、市、区、门牌号、住宅小区、房间号等信息写在一起组成地址信息,如“广东深圳南山区高新中一道9号科技园软件大厦713”,这种写法适合人工识别,而当通过机器识别地址的结构化细节信息时首先要做的处理就是分词与标注,将输入的长文本切分成一个一个的词,并对词的属性进行标注,如上例地址信息的分词标注结果可能为:“广东/省 深圳/市 南山区/区 高新中一道/道路 9号/路号 科技园/片区 软件大厦/楼栋 713/房间”。中文地址分词标注是地址信息处理的一项基础性工作,其准确程度将直接影响到后续处理的正确性。
现有分词标注技术中应用的比较成熟的是基于统计的方法,例如,隐马尔可夫模型(HMM)的分词标注技术就是一种典型的基于统计模型的分词标注方法。但是,应用通用的分词标注或实体识别技术来进行中文地址分词标注的结果准确率不太高,只有80%左右。因此,亟需一种高准确率的中文地址分词标注方法。
发明内容
本发明的目的在于提供一种中文地址分词标注方法,提高中文地址分词标注的准确率。
为实现上述目的,本发明提供一种中文地址分词标注方法,包括:
步骤11、对挑选出的地址数据进行人工分词标注,以作为训练数据;
步骤12、对于该训练数据或挑选出的地址数据中出现的单个阿拉伯数字字符或英文字母字符以及多个连续阿拉伯数字字符或英文字母字符,以预先唯一指定的单个阿拉伯数字字符或英文字母字符替换;
步骤13、采用由分词标签和标注标签组成的组合标签将该训练数据转换成CRF++工具所需要的格式;
步骤14、定义特征模板;
步骤15、使用CRF++工具建立分词标注模型;
步骤16、对于欲分词标注的地址中出现的单个阿拉伯数字字符或英文字母字符以及多个连续阿拉伯数字字符或英文字母字符,以该预先唯一指定的单个阿拉伯数字字符或英文字母字符替换,同时保存替换前的阿拉伯数字字符或英文字母字符;
步骤17、然后使用CRF++工具对欲分词标注的地址进行分词标注;
步骤18、在分词标注结果中还原替换前的阿拉伯数字字符或英文字母字符。
其中,所述分词标签包括表示字在词的开头或中间的标签以及表示字是词的结尾的标签。
其中,所述标注标签包括省、市、区、街道、社区、道路、路号、片区、楼栋及房间。
其中,步骤17包括获取地址中每个字的组合标签以及解析每个字的分词标签和标注标签。
其中,解析每个字的分词标签和标注标签的过程包括:
a)首先建立一个字的缓存区,初始为空,并从头开始按顺序处理输入地址的每个字;
b)将字存入缓存区,拆开组合标签获得分词标签和标注标签两个独立标签;
c)如果字的分词标签表示字在词的开头或中间且非最后一个字,则继续处理下一个字;
d)否则取出缓存区所有的字并组成一个词,且该词的标注属性为标注标签,将结果输出,清空缓存区。
其中,所述预先唯一指定的单个阿拉伯数字字符或英文字母字符为1。
其中,所述步骤15中使用CRF++工具提供的crf_learn命令训练分词标注模型。
其中,训练分词标注模型的过程迭代100步。
综上所述,本发明的中文地址分词标注方法的准确率高。
附图说明
图1为本发明中文地址分词标注方法一较佳实施例的流程图。
具体实施方式
下面结合附图,通过对本发明的具体实施方式详细描述,将使本发明的技术方案及其有益效果显而易见。
本发明采用基于条件随机场模型的分词框架,条件随机场相关技术采用开源的CRF++工具。CRF++是著名的条件随机场开源工具,也是目前综合性能最佳的CRF工具。
对应于地址的标注标签,本发明定义地址如下概念:
省:由“国家地名地址数据规范”规定的一级行政区域,包含:省、直辖市、自治区、特别行政区;
市:由“国家地名地址数据规范”规定的二级行政区域,包含:地级市、地区、自治州、盟;
区:由“国家地名地址数据规范”规定的三级行政区域,包含:市辖区、县级市、县、旗、特区、林区;
街道:由“国家地名地址数据规范”规定的四级行政区域,包含:区公所、镇、乡、苏木、街道;
社区:由“国家地名地址数据规范”规定的五级行政区域,包含:社区、居委会、行政村;
道路:道路、街、巷;
路号:门牌号;
片区:区域性质的地址名,通常该名称所代表的地址区域内容有数栋建筑,如科技园、深南花园、下沙村等;
楼栋:建筑物名称,通指一栋建筑,如软件大厦、1栋、2号楼、A座等;
房间:楼栋内的房间编号,如713;
其他:其他内容。
参见图1,其为本发明中文地址分词标注方法一较佳实施例的流程图。该方法主要包括:
步骤11、对挑选出的地址数据进行人工分词标注,以作为训练数据。
挑选一批地址数据,可以是数千至数万条,数据来源应符合多样性,尽量保证地址常见的写法都涵盖,人工对其进行分词并标注,作为模型的训练数据。
训练数据可整理成如下格式,即每个词之间用空格隔开,标注信息添加在每个词后面,以斜线”/”(或其他特殊符号)作为分隔符,如:
广东/省 深圳/市 南山区/区 高新中一道/道路 9号/路号 科技园/片区 软件大厦/楼栋 713/房间;
广东省/省 深圳市/市 南山区/区 沙河街道/街道 沙河街社区/社区 上白石/片区 五坊/片区 15号/楼栋;
广东省/省 深圳市/市 福田区/区 梅林街道/街道 新阁社区/社区 林园东路/道路 32号/门牌号 华天公寓/楼栋;
福田/区 莲花路/道路 与/其他 香梅路/道路 交汇处/其他 康欣园/片区。
步骤12、对于该训练数据或挑选出的地址数据中出现的单个阿拉伯数字字符或英文字母字符以及多个连续阿拉伯数字字符或英文字母字符,以预先唯一指定的单个阿拉伯数字字符或英文字母字符替换。
由于数字、字母在中文地址中绝大部分是作为整体出现的,很少存在把在数字、字母切分开的情况,如上面例子中“713/房间”中的713,以及“15号/楼栋”中的15,都是作为整体出现。针对这个情况,本发明将地址中所有连续的字母数字统一用一个字符替换,任一数字或字母都可以,比如用1替换。如存在其它数字、字母形式,如:2A123,也可以替换成1。
原训练数据:
“广东/省 深圳/市 南山区/区 高新中一道/道路 9号/路号 科技园/片区软件大厦/楼栋 713/房间”。
处理后变为:
“广东/省 深圳/市 南山区/区 高新中一道/道路 1号/路号 科技园/片区软件大厦/楼栋 1/房间”。
这样处理的好处有2点:1是保证数字字母不会被错误的拆分开;2是减少了训练数据中的特征数量,可节约模型的训练时间,同时提升地址分词与标注的速度。替换操作可以选择对训练数据进行,也可以选择在对挑选出的地址数据进行人工分词标注操作前进行。
步骤13、采用由分词标签和标注标签组成的组合标签将该训练数据转换成CRF++工具所需要的格式。
上述训练数据的格式方便人的阅读与处理,但并不是CRF++工具所需要的格式,因此需要转换一下。CRF++工具要求的格式为每行内容为一个字及其标签,中间用空格或制表符隔开。
由于本发明中地址分词与标注任务是同时解决的,一个标签需同时支持这2个任务,因此采用组合标签:第一个标签为分词标签用于分词,第二个标签为标注标签用于标注,两个标签之间用“-”连接。其中分词标签采用I和E,I代表这个字在词的开头或中间,E代表这个字是词的结尾,即这个字与前面所有I标记的字组成一个词;标注标签用于表示此词的标注属性,如省、市、楼栋等。通过采用组合标签的形式,可以相对提升最终分词标注结果的准确度。示例数据如下:
深 I-市
圳 I-市
市 E-市
福 I-区
田 I-区
区 E-区
福 I-道路
强 I-道路
路 E-道路。
训练数据到CRF++格式数据转换方法如下:
1)对每行训练数据,用空格进行拆分得到地址单元信息组,如:{"广东/省","深圳/市","南山区/区","高新中一道/道路","9号/路号","科技园/片区","软件大厦/楼栋","713/房间"};
2)对每个地址单元信息(如"软件大厦/楼栋"),用斜线”/”进行拆分,获得一个二元组,其中第一个为地址单元的名称(软件大厦),第二个为标注信息(楼栋);
3)对于地址名称(如“软件大厦”)的每个字符x,按顺序输出一行:
a)如果该字符是名称的最后一个字,输出“x E-标注”,如“厦 E-楼栋”;
b)否则输出“x I-标注”,如“软 I-楼栋”;
4)该行训练数据的所有地址单元信息处理完毕后输出一个空行。
步骤14、定义特征模板。
针对不同的问题,CRF++工具需要提供合理特征模板以便高效、合理的解决对应的问题。本发明中采用如下模板:
#Unigram
U00:%x[-2,0]
U01:%x[-1,0]
U02:%x[0,0]
U03:%x[1,0]
U04:%x[2,0]
U05:%x[-2,0]/%x[-1,0]/%x[0,0]
U06:%x[-1,0]/%x[0,0]/%x[1,0]
U07:%x[0,0]/%x[1,0]/%x[2,0]
U08:%x[-1,0]/%x[0,0]
U09:%x[0,0]/%x[1,0]
#Bigram
B
步骤15、使用CRF++工具建立分词标注模型。
使用CRF++工具提供的crf_learn命令训练模型,训练命令格式如下:
crf_learn-m num template_file train_file model_file。
其中template_file为特征模板文件,train_file为训练数据文件,model_file为获得的模型文件,供以后使用;-m num参数可指定训练过程最大迭代步数,如可设置为–m 100,即最多迭代100步。crf_learn还有其他数个参数用于控制训练效果、训练时间,具体可参看工具的帮助文档。
到此,分词标注的模型建立完毕,接下来就可使用该模型解决具体的地址分词、标注问题。
步骤16、对于欲分词标注的地址中出现的单个阿拉伯数字字符或英文字母字符以及多个连续阿拉伯数字字符或英文字母字符,以该预先唯一指定的单个阿拉伯数字字符或英文字母字符替换,同时保存替换前的阿拉伯数字字符或英文字母字符。
由于建立模型时对数字字母进行了特殊处理,相应的模型使用时也需要对字母数据进行处理,即将所有连续的字母数字用1替换,同时将替换了的原数字字母按顺序保存起来,以便后续还原。如输入:
深圳市福田区福田村牛巷坊89号4层02室;
处理后为:
深圳市福田区福田村牛巷坊1号1层1室;
同时保存替换的3个字母数字组:{“89” “4” “02”}。
步骤17、然后使用CRF++工具对欲分词标注的地址进行分词标注。
地址经上一步处理后可用CRF++工具进行分析,获取地址中每个字的组合标签,如下:
深/I-市 圳/I-市 市/E-市 福/I-区 田/I-区 区/E-区 福/I-片区 田/I-片区 村/E-片区 牛/I-片区 巷/I-片区 坊/E-片区 1/I-楼栋 号/E-楼栋 1/I-房间 层/I-房间1/I-房间 室/E-房间。
解析每个字的标签。解析每个字的分词标签和标注标签的过程如下:
a)首先建立一个字的缓存区,初始为空,并从头开始按顺序处理输入地址的每个字;
b)将字存入缓存区,拆开字的组合标签获得分词标签(第一个标签)和标注标签(第二个标签)两个独立标签;
c)如果字的分词标签表示字在词的开头或中间且非最后一个字,则继续处理下一个字;也就是如果第一个标签为I且非最后一个字,则继续处理下一个字;
d)否则取出缓存区所有的字并组成一个词,且该词的标注属性为缓存区中字的标注标签,将结果输出,清空缓存区。
按顺序处理完输入地址的每个字后,可得中文地址的分词与标注结果,对于示例输入,其解析结果如下:
深圳市/市 福田区/区 福田村/片区 牛巷坊/片区 1号/楼栋 1层1室/房间。
步骤18、在分词标注结果中还原替换前的阿拉伯数字字符或英文字母字符。
获得分词标注结果后,需将替换了的字母数字按顺序还原,还原后结果如下:
深圳市/市 福田区/区 福田村/片区 牛巷坊/片区 89号/楼栋 4层02室/房间。
至此得到了中文地址的最终分词标注结果。实验证明,本发明分词标注的准确率可达95%,远高于其他方法。
综上所述,本发明的中文地址分词标注方法的准确率高。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种中文地址分词标注方法,其特征在于,包括:
步骤11、对挑选出的地址数据进行人工分词标注,以作为训练数据;
步骤12、对于该训练数据或挑选出的地址数据中出现的单个阿拉伯数字字符或英文字母字符以及多个连续阿拉伯数字字符或英文字母字符,以预先唯一指定的单个阿拉伯数字字符或英文字母字符替换;
步骤13、采用由分词标签和标注标签组成的组合标签将该训练数据转换成CRF++工具所需要的格式;
步骤14、定义特征模板;
步骤15、使用CRF++工具建立分词标注模型;
步骤16、对于欲分词标注的地址中出现的单个阿拉伯数字字符或英文字母字符以及多个连续阿拉伯数字字符或英文字母字符,以该预先唯一指定的单个阿拉伯数字字符或英文字母字符替换,同时保存替换前的阿拉伯数字字符或英文字母字符;
步骤17、然后使用CRF++工具对欲分词标注的地址进行分词标注;
步骤18、在分词标注结果中还原替换前的阿拉伯数字字符或英文字母字符。
2.根据权利要求1所述的中文地址分词标注方法,其特征在于,所述分词标签包括表示字在词的开头或中间的标签以及表示字是词的结尾的标签。
3.根据权利要求1所述的中文地址分词标注方法,其特征在于,所述标注标签包括省、市、区、街道、社区、道路、路号、片区、楼栋及房间。
4.根据权利要求1所述的中文地址分词标注方法,其特征在于,步骤17包括获取地址中每个字的组合标签以及解析每个字的分词标签和标注标签。
5.根据权利要求4所述的中文地址分词标注方法,其特征在于,解析每个字的分词标签和标注标签的过程包括:
a)首先建立一个字的缓存区,初始为空,并从头开始按顺序处理输入地址的每个字;
b)将字存入缓存区,拆开字的组合标签获得分词标签和标注标签两个独立标签;
c)如果字的分词标签表示字在词的开头或中间且非最后一个字,则继续处理下一个字;
d)否则取出缓存区所有的字并组成一个词,且该词的标注属性为缓存区中字的标注标签,将结果输出,清空缓存区。
6.根据权利要求1所述的中文地址分词标注方法,其特征在于,所述预先唯一指定的单个阿拉伯数字字符或英文字母字符为1。
7.根据权利要求1所述的中文地址分词标注方法,其特征在于,所述步骤15中使用CRF++工具提供的crf_learn命令训练分词标注模型。
8.根据权利要求7所述的中文地址分词标注方法,其特征在于,训练分词标注模型的过程迭代100步。
CN201510240706.XA 2015-05-12 2015-05-12 中文地址分词标注方法 Active CN104933024B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510240706.XA CN104933024B (zh) 2015-05-12 2015-05-12 中文地址分词标注方法
PCT/CN2015/094374 WO2016179987A1 (zh) 2015-05-12 2015-11-12 中文地址分词标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510240706.XA CN104933024B (zh) 2015-05-12 2015-05-12 中文地址分词标注方法

Publications (2)

Publication Number Publication Date
CN104933024A true CN104933024A (zh) 2015-09-23
CN104933024B CN104933024B (zh) 2017-09-01

Family

ID=54120193

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510240706.XA Active CN104933024B (zh) 2015-05-12 2015-05-12 中文地址分词标注方法

Country Status (2)

Country Link
CN (1) CN104933024B (zh)
WO (1) WO2016179987A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016179987A1 (zh) * 2015-05-12 2016-11-17 深圳市华傲数据技术有限公司 中文地址分词标注方法
WO2016179988A1 (zh) * 2015-05-12 2016-11-17 深圳市华傲数据技术有限公司 中文地址分词标注方法
CN109902509A (zh) * 2019-01-25 2019-06-18 中译语通科技股份有限公司 一种基于阿拉伯数字遮蔽的中文地址数据脱敏方法及装置
CN110895651A (zh) * 2018-08-23 2020-03-20 北京京东金融科技控股有限公司 地址标准化处理方法、装置、设备及计算机可读存储介质
CN112257389A (zh) * 2020-10-29 2021-01-22 湖南星汉数智科技有限公司 一种多语言文字数字转阿拉伯数字的转换方法、装置、计算机装置及计算机可读存储介质
CN112307216A (zh) * 2020-07-30 2021-02-02 北京沃东天骏信息技术有限公司 药品知识图谱的构建方法和装置

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562834A (zh) * 2017-08-23 2018-01-09 四川长虹电器股份有限公司 地理位置标准化提取的方法
CN109800409A (zh) * 2017-11-17 2019-05-24 普天信息技术有限公司 一种中文分词方法及系统
CN110609936A (zh) * 2018-06-11 2019-12-24 广州华资软件技术有限公司 一种模糊地址数据智能分类的方法
CN109325222A (zh) * 2018-07-23 2019-02-12 广州都市圈网络科技有限公司 一种规格化地址描述方法
CN111523433B (zh) * 2020-04-17 2023-09-19 上海中通吉网络技术有限公司 快件末端地址的标准化处理方法、装置和设备
CN113723089B (zh) * 2020-05-25 2023-12-26 阿里巴巴集团控股有限公司 一种分词模型训练方法、分词方法和数据处理方法及装置
CN113656531B (zh) * 2021-08-12 2024-06-14 南方电网数字电网研究院有限公司 一种电网地址结构化的处理方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080221863A1 (en) * 2007-03-07 2008-09-11 International Business Machines Corporation Search-based word segmentation method and device for language without word boundary tag
CN101393544A (zh) * 2008-10-07 2009-03-25 南京师范大学 面向地址编码的中文地址语义解析方法
CN102298585A (zh) * 2010-06-24 2011-12-28 高德软件有限公司 一种地址切分及级别标注方法和地址切分及级别标注装置
CN102955833A (zh) * 2011-08-31 2013-03-06 深圳市华傲数据技术有限公司 一种通讯地址识别、标准化的方法
CN103440311A (zh) * 2013-08-27 2013-12-11 深圳市华傲数据技术有限公司 一种地名实体识别的方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477518A (zh) * 2009-01-09 2009-07-08 昆明理工大学 基于条件随机场的旅游领域命名实体识别方法
CN103020034A (zh) * 2011-09-26 2013-04-03 北京大学 中文分词方法和装置
CN104598573B (zh) * 2015-01-13 2017-06-16 北京京东尚科信息技术有限公司 一种用户的生活圈提取方法及系统
CN104933023B (zh) * 2015-05-12 2017-09-01 深圳市华傲数据技术有限公司 中文地址分词标注方法
CN104933024B (zh) * 2015-05-12 2017-09-01 深圳市华傲数据技术有限公司 中文地址分词标注方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080221863A1 (en) * 2007-03-07 2008-09-11 International Business Machines Corporation Search-based word segmentation method and device for language without word boundary tag
CN101393544A (zh) * 2008-10-07 2009-03-25 南京师范大学 面向地址编码的中文地址语义解析方法
CN102298585A (zh) * 2010-06-24 2011-12-28 高德软件有限公司 一种地址切分及级别标注方法和地址切分及级别标注装置
CN102955833A (zh) * 2011-08-31 2013-03-06 深圳市华傲数据技术有限公司 一种通讯地址识别、标准化的方法
CN103440311A (zh) * 2013-08-27 2013-12-11 深圳市华傲数据技术有限公司 一种地名实体识别的方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
汪闯闯 等: ""基于群集智能的CRF与规则结合的中文地址抽取"", 《计算机应用研究》 *
蒋文明: ""基于条件随机场的中文地址要素识别方法"", 《计算机工程与应用》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016179987A1 (zh) * 2015-05-12 2016-11-17 深圳市华傲数据技术有限公司 中文地址分词标注方法
WO2016179988A1 (zh) * 2015-05-12 2016-11-17 深圳市华傲数据技术有限公司 中文地址分词标注方法
CN110895651A (zh) * 2018-08-23 2020-03-20 北京京东金融科技控股有限公司 地址标准化处理方法、装置、设备及计算机可读存储介质
CN110895651B (zh) * 2018-08-23 2024-02-02 京东科技控股股份有限公司 地址标准化处理方法、装置、设备及计算机可读存储介质
CN109902509A (zh) * 2019-01-25 2019-06-18 中译语通科技股份有限公司 一种基于阿拉伯数字遮蔽的中文地址数据脱敏方法及装置
CN112307216A (zh) * 2020-07-30 2021-02-02 北京沃东天骏信息技术有限公司 药品知识图谱的构建方法和装置
CN112307216B (zh) * 2020-07-30 2024-06-18 北京京东拓先科技有限公司 药品知识图谱的构建方法和装置
CN112257389A (zh) * 2020-10-29 2021-01-22 湖南星汉数智科技有限公司 一种多语言文字数字转阿拉伯数字的转换方法、装置、计算机装置及计算机可读存储介质

Also Published As

Publication number Publication date
WO2016179987A1 (zh) 2016-11-17
CN104933024B (zh) 2017-09-01

Similar Documents

Publication Publication Date Title
CN104933024A (zh) 中文地址分词标注方法
CN104933023A (zh) 中文地址分词标注方法
CN103186524B (zh) 一种地名识别方法和装置
CN108228825B (zh) 一种基于分词的用户地址数据清洗方法
CN1786965B (zh) 一种新闻网页正文信息的提取方法
CN106934536A (zh) 建设行业工程量计价清单数据自动编码与识别方法及系统
CN111583078B (zh) 用于人工智能学习模式的标准课件生成系统与方法
CN102024024A (zh) 地址数据库的建构方法及装置
CN110275966B (zh) 一种知识抽取方法及装置
CN101980210A (zh) 一种标的词分类分级方法及系统
WO2016112782A1 (zh) 一种用户的生活圈提取方法及系统
CN111523433B (zh) 快件末端地址的标准化处理方法、装置和设备
CN102360436B (zh) 一种基于部件的联机手写藏文字符的识别方法
CN104598510A (zh) 一种事件触发词识别方法及装置
CN1855091A (zh) 一种以导航树方式来组织通信设备命令集的方法
CN115630648A (zh) 面向人机对话的地址要素解析方法、系统与计算机可读介质
CN103810365A (zh) 一种基于水电仿真培训系统自动评分的方法
CN114154501B (zh) 一种基于无监督学习的中文地址分词方法及系统
CN115017251B (zh) 一种用于智慧城市的标准映射地图建立方法及系统
CN107240150B (zh) 一种三维管道数字化出图方法
JP6556658B2 (ja) 表モチーフ抽出装置、分類器学習装置、表種類分類装置、方法、及びプログラム
CN113268568B (zh) 一种基于分词技术的电力工单重复诉求分析方法
CN112052652B (zh) 一种电子课件脚本自动生成方法及装置
CN104899296A (zh) 复杂地址中多条路径的分析方法
KR20230029206A (ko) 인공지능 문자인식을 위한 학습 데이터 구축 장치

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 518057 2203/2204, Building 1, Huide Building, North Station Community, Minzhi Street, Longhua District, Shenzhen, Guangdong Province

Patentee after: SHENZHEN AUDAQUE DATA TECHNOLOGY Ltd.

Address before: 518057 Rooms 713, 715 and 716, 7/F, Software Building, No. 9, High-tech Middle Road, High-tech Zone, Nanshan District, Shenzhen, Guangdong Province

Patentee before: SHENZHEN AUDAQUE DATA TECHNOLOGY Ltd.