CN104933023B - 中文地址分词标注方法 - Google Patents
中文地址分词标注方法 Download PDFInfo
- Publication number
- CN104933023B CN104933023B CN201510239133.9A CN201510239133A CN104933023B CN 104933023 B CN104933023 B CN 104933023B CN 201510239133 A CN201510239133 A CN 201510239133A CN 104933023 B CN104933023 B CN 104933023B
- Authority
- CN
- China
- Prior art keywords
- participle
- word
- label
- mark
- address
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明涉及一种中文地址分词标注方法。该方法包括:步骤11、人工分词标注挑选出的地址数据作为训练数据;步骤12、对出现的单个阿拉伯数字字符或英文字母字符以及多个连续阿拉伯数字字符或英文字母字符,以指定的单个阿拉伯数字字符或英文字母字符替换;步骤13、训练数据转换成CRF++工具需要的格式;步骤14、定义特征模板;步骤15、使用CRF++工具分别建立分词模型和标注模型;步骤16、地址中出现的单个阿拉伯数字字符或英文字母字符以及多个连续阿拉伯数字字符或英文字母字符,以该指定的单个阿拉伯数字字符或英文字母字符替换;步骤17、用CRF++工具分词标注;步骤18、还原替换前的阿拉伯数字字符或英文字母字符。本发明的中文地址分词标注方法的准确率高。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种中文地址分词标注方法。
背景技术
人们在填写收件人地址、办公地址、家庭住址等地址信息时一般都是将省、市、区、门牌号、住宅小区、房间号等信息写在一起组成地址信息,如“广东深圳南山区高新中一道9号科技园软件大厦713”,这种写法适合人工识别,而当通过机器识别地址的结构化细节信息时首先要做的处理就是分词与标注,将输入的长文本切分成一个一个的词,并对词的属性进行标注,如上例地址信息的分词标注结果可能为:“广东/省深圳/市南山区/区高新中一道/道路9号/路号科技园/片区软件大厦/楼栋713/房间”。中文地址分词标注是地址信息处理的一项基础性工作,其准确程度将直接影响到后续处理的正确性。
现有分词标注技术中应用的比较成熟的是基于统计的方法,例如,隐马尔可夫模型(HMM)的分词标注技术就是一种典型的基于统计模型的分词标注方法。但是,应用通用的分词标注或实体识别技术来进行中文地址分词标注的结果准确率不太高,只有80%左右。因此,亟需一种高准确率的中文地址分词标注方法。
发明内容
本发明的目的在于提供一种中文地址分词标注方法,提高中文地址分词标注的准确率。
为实现上述目的,本发明提供一种中文地址分词标注方法,包括:
步骤11、对挑选出的地址数据进行人工分词标注,以作为训练数据;
步骤12、对于该训练数据或挑选出的地址数据中出现的单个阿拉伯数字字符或英文字母字符以及多个连续阿拉伯数字字符或英文字母字符,以预先唯一指定的单个阿拉伯数字字符或英文字母字符替换;
步骤13、采用分词标签和标注标签分别将该训练数据转换成CRF++工具所需要的格式;
步骤14、定义特征模板;
步骤15、使用CRF++工具分别建立分词模型和标注模型;
步骤16、对于欲分词标注的地址中出现的单个阿拉伯数字字符或英文字母字符以及多个连续阿拉伯数字字符或英文字母字符,以该预先唯一指定的单个阿拉伯数字字符或英文字母字符替换,同时保存替换前的阿拉伯数字字符或英文字母字符;
步骤17、然后使用CRF++工具对欲分词标注的地址进行分词标注;
步骤18、在分词标注结果中还原替换前的阿拉伯数字字符或英文字母字符。
其中,所述分词标签包括表示字在词首的标签,表示字在词中的标签,表示字在词尾的标签,以及表示单个字成词的标签。
其中,所述标注标签包括省、市、区、街道、社区、道路、路号、片区、楼栋及房间。
其中,步骤17包括用该分词模型和标注模型分别获取每个字的分词标签和标注标签以及解析每个字的分词标签和标注标签。
其中,解析每个字的分词标签和标注标签的过程包括:
a)首先建立一个字的缓存区,初始为空,并从头开始按顺序处理输入地址的每个字;
b)将字存入缓存区,然后判断该字的分词标签;
c)如果该字的分词标签表示字在词首或词中且非最后一个字,则继续处理下一个字;
d)否则取出缓存区所有的字并组成一个词,且该词的标注属性为缓存区中字的标注标签,将结果输出,清空缓存区。
其中,所述预先唯一指定的单个阿拉伯数字字符或英文字母字符为1。
其中,所述步骤15中使用CRF++工具提供的crf_learn命令训练分词模型和标注模型。
其中,训练分词模型和标注模型的过程迭代100步。
综上所述,本发明的中文地址分词标注方法的准确率高。
附图说明
图1为本发明中文地址分词标注方法一较佳实施例的流程图。
具体实施方式
下面结合附图,通过对本发明的具体实施方式详细描述,将使本发明的技术方案及其有益效果显而易见。
本发明采用基于条件随机场模型的分词框架,条件随机场相关技术采用开源的CRF++工具。CRF++是著名的条件随机场开源工具,也是目前综合性能最佳的CRF工具。
对应于地址的标注标签,本发明定义地址如下概念:
省:由“国家地名地址数据规范”规定的一级行政区域,包含:省、直辖市、自治区、特别行政区;
市:由“国家地名地址数据规范”规定的二级行政区域,包含:地级市、地区、自治州、盟;
区:由“国家地名地址数据规范”规定的三级行政区域,包含:市辖区、县级市、县、旗、特区、林区;
街道:由“国家地名地址数据规范”规定的四级行政区域,包含:区公所、镇、乡、苏木、街道;
社区:由“国家地名地址数据规范”规定的五级行政区域,包含:社区、居委会、行政村;
道路:道路、街、巷;
路号:门牌号;
片区:区域性质的地址名,通常该名称所代表的地址区域内容有数栋建筑,如科技园、深南花园、下沙村等;
楼栋:建筑物名称,通指一栋建筑,如软件大厦、1栋、2号楼、A座等;
房间:楼栋内的房间编号,如713;
其他:其他内容。
参见图1,其为本发明中文地址分词标注方法一较佳实施例的流程图。该方法主要包括:
步骤11、对挑选出的地址数据进行人工分词标注,以作为训练数据。
挑选一批地址数据,可以是数千至数万条,数据来源应符合多样性,尽量保证地址常见的写法都涵盖,人工对其进行分词并标注,作为模型的训练数据。
训练数据可整理成如下格式,即每个词之间用空格隔开,标注信息添加在每个词后面,以斜线”/”(或其他特殊符号)作为分隔符,如:
广东/省 深圳/市 南山区/区 高新中一道/道路 9 号/路号 科技园/片区 软件大厦/楼栋 713/房间;
广东省/省 深圳市/市 南山区/区 沙河街道/街道 沙河街社区/社区 上白石/片区 五坊/片区 15 号/楼栋;
广东省/省 深圳市/市 福田区/区 梅林街道/街道 新阁社区/社区 林园东路/道路 32号/门牌号 华天公寓/楼栋;
福田/区 莲花路/道路 与/其他 香梅路/道路 交汇处/其他 康欣园/片区。
步骤12、对于该训练数据或挑选出的地址数据中出现的单个阿拉伯数字字符或英文字母字符以及多个连续阿拉伯数字字符或英文字母字符,以预先唯一指定的单个阿拉伯数字字符或英文字母字符替换。
由于数字、字母在中文地址中绝大部分是作为整体出现的,很少存在把在数字、字母切分开的情况,如上面例子中“713/房间”中的713,以及“15号/楼栋”中的15,都是作为整体出现。针对这个情况,本发明将地址中所有连续的字母数字统一用一个字符替换,任一数字或字母都可以,比如用1替换。如存在其它数字、字母形式,如:2A123,也可以替换成1。
原训练数据:
“广东/省 深圳/市 南山区/区 高新中一道/道路 9 号/路号 科技园/片区软件大厦/楼栋 713/房间”。
处理后变为:
“广东/省 深圳/市 南山区/区 高新中一道/道路 1号/路号 科技园/片区软件大厦/楼栋 1/房间”。
这样处理的好处有2点:1是保证数字字母不会被错误的拆分开;2是减少了训练数据中的特征数量,可节约模型的训练时间,同时提升地址分词与标注的速度。替换操作可以选择对训练数据进行,也可以选择在对挑选出的地址数据进行人工分词标注操作前进行。
步骤13、采用分词标签和标注标签分别将该训练数据转换成CRF++工具所需要的格式。
上述训练数据的格式方便人的阅读与处理,但并不是CRF++工具所需要的格式,因此需要转换一下。CRF++工具要求的格式为每行内容为一个字及其标签,中间用空格或制表符隔开。
本发明采用分词模型和标注模型2个CRF模型同步来解决地址的分词与标注2个问题,每个模型使用不同的训练数据和不同的标签。对于分词问题,本发明采用分词标签B、I、E、S来表示每个字的状态,含义分别为B:代表词首;I:词中;E:词尾;S:单个字成词。对于标注问题,标注标签用于表示此词的标注属性,如省、市、楼栋等。分词和标注2份示例数据如下:
再如:
分词用数据:深/B 圳/I 市/E 福/B 田/I 区/E 福/B 田/I 村/E 牛/B 巷/I 坊/E 1/B 号/E 1/S ;
标注用数据:深/市 圳/市 市/市 福/区 田/区 区/区 福/片区 田/片区 村/片区 牛/片区 巷/片区 坊/片区 1/楼栋 号/楼栋 1/房间 ;
分词标注结果:深圳市/市 福田区/区 福田村/片区 牛巷坊/片区 89 号/楼栋402/房间。
训练数据到分词模型用的CRF++格式数据转换方法如下:
1)对每行训练数据,用空格进行拆分得到地址单元信息组,如:{"广东/省","深圳/市","南山区/区","高新中一道/道路","9号/路号","科技园/片区","软件大厦/楼栋","713/房间"};
2)对每个地址单元信息(如"软件大厦/楼栋"),用斜线”/”进行拆分,获得一个二元组,其中第一个为地址单元的名称(软件大厦),第二个为标注信息(楼栋);
3)对于地址名称(如“软件大厦”)的每个字符x,按顺序输出一行:
a)如果该名称只有一个字,则输出“x S”;
b)否则如果该字符是名称的最后一个字,输出“x E”,如“厦 E”;
c)否则如果是名称的第一个字,输出“x B”,如“软 E”;
d)否则输出“x I”,如“软 I”;
4)该行训练数据的所有地址单元信息处理完毕后输出一个空行。
训练数据到标注模型CRF++格式数据转换方法如下:
1)对每行训练数据,用空格进行拆分得到地址单元信息组,如:{"广东/省","深圳/市","南山区/区","高新中一道/道路","9号/路号","科技园/片区","软件大厦/楼栋","713/房间"};
2)对每个地址单元信息(如"软件大厦/楼栋"),用斜线”/”进行拆分,获得一个二元组,其中第一个为地址单元的名称(软件大厦),第二个为标注信息(楼栋);
3)对于地址名称(如“软件大厦”)的每个字符x,按顺序输出一行:“x 标注”,如“软楼栋”;
4)该行训练数据的所有地址单元信息处理完毕后输出一个空行。
步骤14、定义特征模板。
针对不同的问题,CRF++工具需要提供合理特征模板以便高效、合理的解决对应的问题。本发明中采用如下模板:
#Unigram
U00:%x[-2,0]
U01:%x[-1,0]
U02:%x[0,0]
U03:%x[1,0]
U04:%x[2,0]
U05:%x[-2,0]/%x[-1,0]/%x[0,0]
U06:%x[-1,0]/%x[0,0]/%x[1,0]
U07:%x[0,0]/%x[1,0]/%x[2,0]
U08:%x[-1,0]/%x[0,0]
U09:%x[0,0]/%x[1,0]
#Bigram
B步骤15、使用CRF++工具分别建立分词模型和标注模型。
使用CRF++工具提供的crf_learn命令分别训练两个模型,训练命令格式如下:
crf_learn-m num template_file train_file model_file。
其中template_file为特征模板文件,train_file为训练数据文件,model_file为获得的模型文件,供以后使用;-m num参数可指定训练过程最大迭代步数,如可设置为–m100,即最多迭代100步。crf_learn还有其他数个参数用于控制训练效果、训练时间,具体可参看工具的帮助文档。到此,分词标注的2个模型建立完毕,接下来就可使用该模型解决具体的地址分词、标注问题。使用分词标签B、I、E、S虽然降低了速度,但是可以提升分词标注结果的准确度。分成分词和标注2个模型可以最终加快中文地址分词标注的处理速度。
步骤16、对于欲分词标注的地址中出现的单个阿拉伯数字字符或英文字母字符以及多个连续阿拉伯数字字符或英文字母字符,以该预先唯一指定的单个阿拉伯数字字符或英文字母字符替换,同时保存替换前的阿拉伯数字字符或英文字母字符。
由于建立模型时对数字字母进行了特殊处理,相应的模型使用时也需要对字母数据进行处理,即将所有连续的字母数字用1替换,同时将替换了的原数字字母按顺序保存起来,以便后续还原。如输入:
深圳市福田区福田村牛巷坊89号4层02室;
处理后为:
深圳市福田区福田村牛巷坊1号1层1室;
同时保存替换的3个字母数字组:{“89”“4”“02”}。
步骤17、然后使用CRF++工具对欲分词标注的地址进行分词标注。
地址经上一步处理后可用CRF++工具进行分析,用分词模型和标注模型分别获取每个字的分词标签和标注标签,如下:
分词标签:
深/B 圳/I 市/E 福/B 田/I 区/E 福/B 田/I 村/E 牛/B 巷/I 坊/E 1/B 号/E1/B 层/I 1/I 室/E;
标注标签:
深/市 圳/市 市/市 福/区 田/区 区/区 福/片区 田/片区 村/片区 牛/片区巷/片区 坊/片区 1/楼栋 号/楼栋 1/房间 层/房间 1/房间 室/房间。
解析每个字的分词标签和标注标签,过程如下:
a)首先建立一个字的缓存区,初始为空,并从头开始按顺序处理输入地址的每个字;
b)将字存入缓存区,然后判断该字的分词标签;
c)如果该字的分词标签表示字在词首或词中且非最后一个字,则继续处理下一个字;
d)否则取出缓存区所有的字并组成一个词,且该词的标注属性为缓存区中字的标注标签,将结果输出,清空缓存区。
按顺序处理完输入地址的每个字后,可得中文地址的分词与标注结果,对于示例输入,其解析结果如下:
深圳市/市 福田区/区 福田村/片区 牛巷坊/片区 1号/楼栋 1层1室/房间。
步骤18、在分词标注结果中还原替换前的阿拉伯数字字符或英文字母字符。
获得分词标注结果后,需将替换了的字母数字按顺序还原,还原后结果如下:
深圳市/市 福田区/区 福田村/片区 牛巷坊/片区 89号/楼栋 4层 02室/房间。
至此得到了中文地址的最终分词标注结果。实验证明,本发明分词标注的准确率可达95%,远高于其他方法。
综上所述,本发明的中文地址分词标注方法的准确率高。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种中文地址分词标注方法,其特征在于,包括:
步骤11、对挑选出的地址数据进行人工分词标注,以作为训练数据;
步骤12、对于该训练数据中出现的单个阿拉伯数字字符或英文字母字符以及多个连续阿拉伯数字字符或英文字母字符,以预先唯一指定的单个阿拉伯数字字符或英文字母字符替换;
步骤13、采用分词标签和标注标签分别将该训练数据转换成CRF++工具所需要的格式;
步骤14、定义特征模板;
步骤15、使用CRF++工具分别建立分词模型和标注模型;
步骤16、对于欲分词标注的地址中出现的单个阿拉伯数字字符或英文字母字符以及多个连续阿拉伯数字字符或英文字母字符,以该预先唯一指定的单个阿拉伯数字字符或英文字母字符替换,同时保存替换前的阿拉伯数字字符或英文字母字符;
步骤17、然后使用CRF++工具对欲分词标注的地址进行分词标注;
步骤18、在分词标注结果中还原替换前的阿拉伯数字字符或英文字母字符。
2.根据权利要求1所述的中文地址分词标注方法,其特征在于,所述分词标签包括表示字在词首的标签,表示字在词中的标签,表示字在词尾的标签,以及表示单个字成词的标签。
3.根据权利要求1所述的中文地址分词标注方法,其特征在于,所述标注标签包括省、市、区、街道、社区、道路、路号、片区、楼栋及房间。
4.根据权利要求1所述的中文地址分词标注方法,其特征在于,步骤17包括用该分词模型和标注模型分别获取每个字的分词标签和标注标签以及解析每个字的分词标签和标注标签。
5.根据权利要求4所述的中文地址分词标注方法,其特征在于,解析每个字的分词标签和标注标签的过程包括:
a)首先建立一个字的缓存区,初始为空,并从头开始按顺序处理输入地址的每个字;
b)将字存入缓存区,然后判断该字的分词标签;
c)如果该字的分词标签表示字在词首或词中且非最后一个字,则继续处理下一个字;
d)否则取出缓存区所有的字并组成一个词,且该词的标注属性为缓存区中字的标注标签,将结果输出,清空缓存区。
6.根据权利要求1所述的中文地址分词标注方法,其特征在于,所述预先唯一指定的单个阿拉伯数字字符或英文字母字符为1。
7.根据权利要求1所述的中文地址分词标注方法,其特征在于,所述步骤15中使用CRF++工具提供的crf_learn命令训练分词模型和标注模型。
8.根据权利要求7所述的中文地址分词标注方法,其特征在于,训练分词模型和标注模型的过程迭代100步。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510239133.9A CN104933023B (zh) | 2015-05-12 | 2015-05-12 | 中文地址分词标注方法 |
PCT/CN2015/094375 WO2016179988A1 (zh) | 2015-05-12 | 2015-11-12 | 中文地址分词标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510239133.9A CN104933023B (zh) | 2015-05-12 | 2015-05-12 | 中文地址分词标注方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104933023A CN104933023A (zh) | 2015-09-23 |
CN104933023B true CN104933023B (zh) | 2017-09-01 |
Family
ID=54120192
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510239133.9A Active CN104933023B (zh) | 2015-05-12 | 2015-05-12 | 中文地址分词标注方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN104933023B (zh) |
WO (1) | WO2016179988A1 (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104933023B (zh) * | 2015-05-12 | 2017-09-01 | 深圳市华傲数据技术有限公司 | 中文地址分词标注方法 |
CN104933024B (zh) * | 2015-05-12 | 2017-09-01 | 深圳市华傲数据技术有限公司 | 中文地址分词标注方法 |
CN105574156B (zh) * | 2015-12-16 | 2019-03-26 | 华为技术有限公司 | 文本聚类方法、装置及计算设备 |
CN109284763A (zh) * | 2017-07-19 | 2019-01-29 | 阿里巴巴集团控股有限公司 | 一种生成分词训练数据的方法和服务器 |
CN109408801A (zh) * | 2018-08-28 | 2019-03-01 | 昆明理工大学 | 一种基于朴素贝叶斯算法的中文分词方法 |
CN111339773A (zh) * | 2018-12-18 | 2020-06-26 | 富士通株式会社 | 信息处理方法、自然语言处理方法以及信息处理设备 |
CN110110327B (zh) * | 2019-04-26 | 2021-06-22 | 网宿科技股份有限公司 | 一种基于对抗学习的文本标注方法和设备 |
CN110516241B (zh) * | 2019-08-26 | 2021-03-02 | 北京三快在线科技有限公司 | 地理地址解析方法、装置、可读存储介质及电子设备 |
CN111046180A (zh) * | 2019-12-05 | 2020-04-21 | 竹间智能科技(上海)有限公司 | 一种基于文本数据的标签识别方法 |
CN112527933A (zh) * | 2020-12-04 | 2021-03-19 | 重庆市地理信息和遥感应用中心 | 一种基于空间位置和文本训练的中文地址关联方法 |
CN112560478B (zh) * | 2020-12-16 | 2024-03-12 | 武汉大学 | 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法 |
CN113268568B (zh) * | 2021-06-25 | 2023-11-14 | 江苏中堃数据技术有限公司 | 一种基于分词技术的电力工单重复诉求分析方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101393544A (zh) * | 2008-10-07 | 2009-03-25 | 南京师范大学 | 面向地址编码的中文地址语义解析方法 |
CN102298585A (zh) * | 2010-06-24 | 2011-12-28 | 高德软件有限公司 | 一种地址切分及级别标注方法和地址切分及级别标注装置 |
CN102955833A (zh) * | 2011-08-31 | 2013-03-06 | 深圳市华傲数据技术有限公司 | 一种通讯地址识别、标准化的方法 |
CN103440311A (zh) * | 2013-08-27 | 2013-12-11 | 深圳市华傲数据技术有限公司 | 一种地名实体识别的方法及系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101261623A (zh) * | 2007-03-07 | 2008-09-10 | 国际商业机器公司 | 基于搜索的无词边界标记语言的分词方法以及装置 |
CN103020034A (zh) * | 2011-09-26 | 2013-04-03 | 北京大学 | 中文分词方法和装置 |
CN103049501B (zh) * | 2012-12-11 | 2016-08-03 | 上海大学 | 基于互信息和条件随机场模型的中文领域术语识别方法 |
CN104598573B (zh) * | 2015-01-13 | 2017-06-16 | 北京京东尚科信息技术有限公司 | 一种用户的生活圈提取方法及系统 |
CN104933023B (zh) * | 2015-05-12 | 2017-09-01 | 深圳市华傲数据技术有限公司 | 中文地址分词标注方法 |
CN104933024B (zh) * | 2015-05-12 | 2017-09-01 | 深圳市华傲数据技术有限公司 | 中文地址分词标注方法 |
-
2015
- 2015-05-12 CN CN201510239133.9A patent/CN104933023B/zh active Active
- 2015-11-12 WO PCT/CN2015/094375 patent/WO2016179988A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101393544A (zh) * | 2008-10-07 | 2009-03-25 | 南京师范大学 | 面向地址编码的中文地址语义解析方法 |
CN102298585A (zh) * | 2010-06-24 | 2011-12-28 | 高德软件有限公司 | 一种地址切分及级别标注方法和地址切分及级别标注装置 |
CN102955833A (zh) * | 2011-08-31 | 2013-03-06 | 深圳市华傲数据技术有限公司 | 一种通讯地址识别、标准化的方法 |
CN103440311A (zh) * | 2013-08-27 | 2013-12-11 | 深圳市华傲数据技术有限公司 | 一种地名实体识别的方法及系统 |
Non-Patent Citations (2)
Title |
---|
"基于条件随机场的中文地址要素识别方法";蒋文明 等;《计算机工程与应用》;20101231;第129页至第131页 * |
"基于群集智能的CRF与规则结合的中文地址抽取";汪闯闯 等;《计算机应用研究》;20150331;第32卷(第3期);第727页至第730页 * |
Also Published As
Publication number | Publication date |
---|---|
WO2016179988A1 (zh) | 2016-11-17 |
CN104933023A (zh) | 2015-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104933023B (zh) | 中文地址分词标注方法 | |
CN104933024B (zh) | 中文地址分词标注方法 | |
CN109697233A (zh) | 一种知识图谱体系搭建方法 | |
CN101639830B (zh) | 一种输入过程中的中文术语自动纠错方法 | |
CN107766371A (zh) | 一种文本信息分类方法及其装置 | |
CN106777275A (zh) | 基于多粒度语义块的实体属性和属性值提取方法 | |
CN104808806B (zh) | 根据不确定性信息实现汉字输入的方法和装置 | |
CN106528526B (zh) | 一种基于贝叶斯分词算法的中文地址语义标注方法 | |
CN104809142A (zh) | 商标查询系统和方法 | |
CN103678684A (zh) | 一种基于导航信息检索的中文分词方法 | |
CN110232439A (zh) | 一种基于深度学习网络的意图识别方法 | |
CN107004141A (zh) | 对大样本组的高效标注 | |
CN111897917B (zh) | 基于多模态自然语言特征的轨道交通行业术语提取方法 | |
CN106407235A (zh) | 一种基于点评数据的语义词典构建方法 | |
CN112527933A (zh) | 一种基于空间位置和文本训练的中文地址关联方法 | |
CN103049581A (zh) | 一种基于一致性聚类的Web文本分类方法 | |
CN106776695A (zh) | 实现文书档案价值自动鉴定的方法 | |
CN110119510A (zh) | 一种基于传递依存关系和结构助词的关系抽取方法及装置 | |
CN111583905A (zh) | 一种语音识别转化方法及系统 | |
CN103500216A (zh) | 一种文件信息的提取方法 | |
CN102360436B (zh) | 一种基于部件的联机手写藏文字符的识别方法 | |
CN104598510A (zh) | 一种事件触发词识别方法及装置 | |
CN101533398A (zh) | 模式匹配索引查找方法 | |
CN103020046B (zh) | 基于人名起源分类的人名音译方法 | |
CN101833376A (zh) | 基于汉字拆分的智能语句级汉字输入系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP02 | Change in the address of a patent holder | ||
CP02 | Change in the address of a patent holder |
Address after: 518057 2203/2204, Building 1, Huide Building, North Station Community, Minzhi Street, Longhua District, Shenzhen, Guangdong Province Patentee after: SHENZHEN AUDAQUE DATA TECHNOLOGY Ltd. Address before: 518057 Rooms 713, 715 and 716, 7/F, Software Building, No. 9, High-tech Middle Road, High-tech Zone, Nanshan District, Shenzhen, Guangdong Province Patentee before: SHENZHEN AUDAQUE DATA TECHNOLOGY Ltd. |