CN110688449A - 基于深度学习的地址文本处理方法、装置、设备及介质 - Google Patents

基于深度学习的地址文本处理方法、装置、设备及介质 Download PDF

Info

Publication number
CN110688449A
CN110688449A CN201910895054.1A CN201910895054A CN110688449A CN 110688449 A CN110688449 A CN 110688449A CN 201910895054 A CN201910895054 A CN 201910895054A CN 110688449 A CN110688449 A CN 110688449A
Authority
CN
China
Prior art keywords
address text
deep learning
learning model
address
labeling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910895054.1A
Other languages
English (en)
Inventor
徐亚东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JD Digital Technology Holdings Co Ltd
Original Assignee
JD Digital Technology Holdings Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JD Digital Technology Holdings Co Ltd filed Critical JD Digital Technology Holdings Co Ltd
Priority to CN201910895054.1A priority Critical patent/CN110688449A/zh
Publication of CN110688449A publication Critical patent/CN110688449A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

本公开提供一种基于深度学习的地址文本处理方法、装置、设备及存储介质,该方法包括:获取用于训练深度学习模型的地址文本;对所述地址文本进行预标注,获得所述地址文本的实体标签和非实体标签;根据所述地址文本、所述实体标签和所述非实体标签训练所述深度学习模型,获得目标深度学习模型。该方法实现了在不需要构建庞大词典库或设计规则的情况下构建可用于标注地址文本的目标深度学习模型,易于维护,便于修改及扩展,降低成本。

Description

基于深度学习的地址文本处理方法、装置、设备及介质
技术领域
本公开涉及地址解析技术领域,具体而言,涉及一种基于深度学习的地址文本处理方法、装置、设备及可读存储介质。
背景技术
地址作为一种常见的使用自然语言描述地理位置的方式,在很多领域具有十分重要的应用。地址解析作为一种特定的中文分词任务,广泛应用于信息检索、地址信息识别等多个方面。由于地址描述复杂多样,且存在地址的书写不规范的现象,实现高效准确的地址解析成为研究的重点和难点。
相关技术中采用基于词典树和规则树的方法对中文地址进行分词,首先将地址词库进行标签化,为各个地址元素标注等级、词性和位置三个重要属性;其次,利用标签化的地址词库构建包含地址元素间级别关系的词典树和包含地址元素特征字符的特征词典,同时基于地址特点和标签化的地址词库构建包含分词规则间级别关系的分词规则树;最后利用词典树、特征词典和分词规则树实现地址分词。基于词典树和规则树的方法的缺点主要包括:第一,该方法需要构建庞大词典库,造成数据库维护困难,成本较大;第二,由于中文地址描述的复杂性,该方法的实现依赖于对规则的合理设计,这样不便于规则的修改及扩展,而且方法本身鲁棒性差;第三,采用该方法需要提前加载地址词库并基于字符串文本进行匹配,在匹配过程中对地址词库的查询和比对次数过多,造成分词效率较低。
如上所述,如何提供便于维护、易于修改及扩展、鲁棒性强、成本低、高效率的地址解析方法成为亟待解决的问题。
在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本公开提供一种基于深度学习的地址文本处理方法、装置、设备及可读存储介质。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一方面,提供一种基于深度学习的地址文本处理方法,包括:获取用于训练深度学习模型的地址文本;对所述地址文本进行预标注,获得所述地址文本的实体标签和非实体标签;根据所述地址文本、所述实体标签和所述非实体标签训练所述深度学习模型,获得目标深度学习模型。
根据本公开的一实施例,所述方法还包括:通过所述目标深度学习模型对待标注的地址文本序列进行处理,获得所述待标注的地址文本序列的实体标签。
根据本公开的一实施例,所述深度学习模型为双向长短期记忆网络与条件随机场算法模型。
根据本公开的一实施例,所述根据所述地址文本、所述实体标签和所述非实体标签训练所述深度学习模型,包括:通过所述双向长短期记忆网络获得所述地址文本中的各个元素相对于各个标签的分数;基于所述条件随机场算法根据所述地址文本中的各个元素相对于各个标签的分数获得所述地址文本的标注序列;根据所述地址文本的标注序列、所述实体标签和所述非实体标签更新所述双向长短期记忆网络和所述条件随机场算法的参数。
根据本公开的一实施例,所述对所述地址文本进行预标注,包括:采用正则表达式方法基于数据库对所述地址文本进行第一预标注,获得第一预标注数据;通过基于web的标注工具将所述预标注数据进行第二预标注,获得所述地址文本的实体标签和非实体标签。
根据本公开的一实施例,在所述获取用于训练深度学习模型的地址文本之前,所述方法还包括:获取初始地址文本;采用正则表达式方法处理所述初始地址文本中的符号,获得用于训练深度学习模型的地址文本。
根据本公开的一实施例,在所述获取用于训练深度学习模型的地址文本之前,所述方法还包括:获取初始地址文本;将所述初始地址文本拆分为至少一个用于训练深度学习模型的地址文本。
根据本公开的再一方面,提供一种基于深度学习的地址文本处理装置,包括:文本获取模块,用于获取用于训练深度学习模型的地址文本;预标注模块,用于对所述地址文本进行预标注,获得所述地址文本的实体标签和非实体标签;模型训练模块,用于根据所述地址文本、所述实体标签和所述非实体标签训练所述深度学习模型,获得目标深度学习模型。
根据本公开的再一方面,提供一种基于深度学习的地址文本处理设备,包括:存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令,所述处理器执行所述可执行指令时实现如上述任一种方法。
根据本公开的再一方面,提供一种计算机可读存储介质,其上存储有计算机可执行指令,所述可执行指令被处理器执行时实现如上述任一种方法。
根据本公开实施例提供的基于深度学习的地址文本处理方法,通过对所述地址文本进行预标注后获得地址文本的实体标签和非实体标签,然后根据地址文本、实体标签和非实体标签训练深度学习模型,获得目标深度学习模型,实现高效率、高准确率的地址文本处理。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
通过参照附图详细描述其示例实施例,本公开的上述和其它目标、特征及优点将变得更加显而易见。
图1示是根据一示例性实施例示出的可以应用于一种基于深度学习的地址文本处理方法或基于深度学习的地址文本处理装置的示例性系统架构
图2是根据一示例性实施例示出的一种基于深度学习的地址文本处理方法的流程图。
图3是根据一示例性实施例示出的一种用于地址文本标注的Bi-LSTM+CRF网络结构示意图。
图4是根据一示例性实施例示出的另一种基于深度学习的地址文本处理方法的流程图。
图5是根据一示例性实施例示出的再一种基于深度学习的地址文本处理方法的流程图。
图6是根据一示例性实施例示出的再一种基于深度学习的地址文本处理方法的流程图。
图7是根据一示例性实施例示出的再一种基于深度学习的地址文本处理方法的流程图。
图8是根据一示例性实施例示出的一种基于深度学习的地址文本处理装置的框图。
图9是根据一示例性实施例示出的一种基于深度学习的地址文本处理设备的结构示意图。
具体实施例
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施例使得本公开将更加全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略特定细节中的一个或更多,或者可以采用其它的方法、装置、步骤等。在其它情况下,不详细示出或描述公知结构、方法、装置、实现或者操作以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。符号“/”一般表示前后关联对象是一种“或”的关系。
在本公开中,除非另有明确的规定和限定,“连接”等术语应做广义理解,例如,可以是电连接或可以互相通讯;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本公开中的具体含义。
如上,因基于词典树和规则树的地址解析方法数据库维护困难,成本较大,且不便于规则的修改及扩展,方法本身鲁棒性差,分词效率较低。因此,本公开提供了一种基于深度学习的地址文本处理方法,对地址文本进行预标注后获得地址文本的实体标签和非实体标签,然后根据地址文本、实体标签和非实体标签训练深度学习模型,获得目标深度学习模型,从而可实现在不需要构建庞大词典库或设计规则的情况下构建可用于标注地址文本的目标深度学习模型,易于维护,便于修改及扩展,降低成本。
图1示出了可以应用本公开的基于深度学习的地址文本处理方法或基于深度学习的地址文本处理装置的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如快递服务应用、购物平台应用等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的地址文本进行处理,并将地址解析结果反馈给终端设备。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2是根据一示例性实施例示出的一种基于深度学习的地址文本处理方法的流程图。如图2所示的方法例如可以应用于基于深度学习的地址文本处理系统的服务器端,也可以应用于基于深度学习的地址文本处理系统的终端设备。
参考图2,方法20包括:
在步骤S202中,获取用于训练深度学习模型的地址文本。
在一些实施例中,将中文地址解析问题作为自然语言处理中序列标注任务加以处理,进一步地,用于进行地址文本的序列标注的深度学习模型可采用双向长短期记忆网络与条件随机场算法模型。双向长短期记忆网络(Bi-directional Long Short-Term,缩写为Bi-LSTM)是循环神经网络(Recurrent Neural Network,缩写为RNN)的一种。长短期记忆网络的设计适用于对时序数据的处理,如文本数据等。双向长短期记忆网络是由前向长短期记忆网络与后向长短期记忆网络组合而成,两者在自然语言处理任务中都常被用来建立上下文信息处理模型。条件随机场(Conditional Random Fields,缩写为CRF)是给定一组输入序列条件下获得另一组输出序列的条件概率分布的算法模型。
在步骤S204中,对地址文本进行预标注,获得地址文本的实体标签和非实体标签;
在一些实施例中,具体地,实体为文本中具有特定意义的元素,如人名、机构名、地名等专有名词等,是信息检索、序列标注等技术的基础任务。地址文本中需要进行关注的实体则为包含了地理信息的元素。在对地址文本进行预标注时,将其中的实体元素标注为描述地址中每个字特征的地理等级要素,在每个等级要素中又由位置标签描述字在词中的位置关系,例如:
北京海淀学院路上
B-Province I-Province B-County I-County B-Road I-Road I-Road O
其中,实体标签为(B-/I-)Province,(B-/I-)County,(B-/I-)Road,分别代表省、区、道路,非实体元素会被标记为O,而B-来标记实体的起始部分,I-来标记实体的非起始部分。
在一些实施例中,地理等级要素可划分16个类型,包括:国、省、市、县/区、乡镇、村庄/社区、道路、路号、道路附属点、住宅、建筑物、学校、机构、楼号、单元、方位,具体含义如下:
表1地址等级要素说明
Figure BDA0002209940710000071
中文地址等级要素的分类细化,在乡镇以下设置道路、路号、住宅、机构等标签类别,可训练得到能够更准确、全面地解析地址文本的深度学习模型。
在步骤S206中,根据地址文本、实体标签和非实体标签训练深度学习模型,获得目标深度学习模型。
在一些实施例中,进一步地,通过双向长短期记忆网络获得地址文本中的各个元素相对于各个标签的分数;基于条件随机场算法根据地址文本中的各个元素相对于各个标签的分数获得地址文本的标注序列。请参考图3,图3是一种用于地址文本标注的Bi-LSTM+CRF网络结构示意图30。该网络的第一层为词嵌入层33,利用初始化嵌入矩阵将输入的地址文本中每个元素映射为低频稠密字向量,通过设置随机失活参数缓解网络的过拟合现象,然后输入网络第二层;第二层是Bi-LSTM编码层32,包括l1-l7节点的为从左(left)至右传播的长短期记忆网络,包括r1-r7节点的为从右(right)至左传播的长短期记忆网络,能够同时考虑前一个元素和后一个元素的影响,c1,…,c7为上下文向量,同样设置随机失活参数,通过编码层自动提取地址特征,获得每个元素相对于各个标签的分数,并以发射概率矩阵形式输出,并输出转移矩阵至第三层;第三层为CRF层31,将Bi-LSTM编码层32输出的转移矩阵解码获取输出标注序列,获得概率最大的地址文本标注序列。通过该网络结构,能够最大限度的自动挖掘文本的特征,而不需要人工进行提取;能够考虑大量的上下文信息、特征,而且具体到每一个特征可以解释为相应的意义,因此便于调整网络参数;考虑了相邻词的标注信息,充分利用上下文信息进行标注,使地址解析的结果更为准确。根据地址文本的标注序列、实体标签和非实体标签更新双向长短期记忆网络和条件随机场算法的参数。具体地,可基于网络损失函数来更新双向长短期记忆网络和条件随机场算法的参数。
根据本公开实施例提供的基于深度学习的地址文本处理方法,通过对地址文本进行预标注后获得地址文本的实体标签和非实体标签,然后根据地址文本、实体标签和非实体标签训练深度学习模型,获得目标深度学习模型,从而可实现在不需要构建庞大词典库或设计规则的情况下构建可用于标注地址文本的目标深度学习模型,易于维护,便于修改及扩展,降低成本。
图4是根据一示例性实施例示出的一种基于深度学习的地址文本处理方法的流程图。如图4所示的方法例如可以应用于基于深度学习的地址文本处理系统的服务器端。
参考图4,方法40包括:
在步骤S402中,获取用于训练深度学习模型的地址文本。
在步骤S404中,对地址文本进行预标注,获得地址文本的实体标签和非实体标签。
在步骤S406中,根据地址文本、实体标签和非实体标签训练深度学习模型,获得目标深度学习模型。
上述步骤S402-S406的一些实施例已于步骤S202-S206中进行详述,此处不再赘述。
在步骤S408中,通过目标深度学习模型对待标注的地址文本序列进行处理,获得待标注的地址文本序列的实体标签。具体地,在一些实施例中,采用目标深度学习模型对地址文本序列进行标注的方法,可采用在上述训练深度学习模型时步骤S206中参考图3详述的通过Bi-LSTM+CRF网络对地址文本进行标注的方法,参照上述步骤S206的一些实施例,此处不再赘述。
根据本公开实施例提供的基于深度学习的地址文本处理方法,通过对地址文本进行预标注后获得地址文本的实体标签和非实体标签,然后根据地址文本、实体标签和非实体标签训练深度学习模型,获得目标深度学习模型,从而可实现在不需要构建庞大词典库或设计规则的情况下构建可用于标注地址文本的目标深度学习模型,易于维护,便于修改及扩展,降低成本。
图5是根据一示例性实施例示出的一种基于深度学习的地址文本处理方法的流程图。如图5所示的方法例如可以应用于基于深度学习的地址文本处理系统的服务器端,也可以应用于基于深度学习的地址文本处理系统的终端设备。
参考图5,方法50包括:
在步骤S502中,获取用于训练深度学习模型的地址文本。
在步骤S504中,采用正则表达式方法基于数据库对地址文本进行第一预标注,获得第一预标注数据。在一些实施例中,为减少人工标注工作量,采用正则表达式方法基于国家地理等级库和关键词库等数据库对省、市、县三级和向下几级标签进行第一预标注。
在步骤S506中,通过基于web的标注工具将预标注数据进行第二预标注,获得地址文本的实体标签和非实体标签。在一些实施例中,可将经过第一预标注的地址文本通过基于web的标注工具,例如WebAnno标注软件工具,将预标注数据转换格式后进行第二预标注,然后可由进行第三次标签矫正,尽量将建筑、机构等混淆标签做到含义一致,然后转换成JS对象简谱格式(JavaScript Object Notation,缩写为JSON)以便后续进行数据处理。
在步骤S508中,根据地址文本、实体标签和非实体标签训练深度学习模型,获得目标深度学习模型。
一些实施例已于步骤S202-S206中进行详述,此处不再赘述。
在一些实施例中,采用16级地理等级标签的Bi-LSTM+CRF网络模型经过预标注的训练集训练后,对测试集进行标注的准确率和召回率达到90%以上。最终输出的地址解析结果举例如下:
“Province:江西|City:九江市|County:彭泽县|Town:龙城镇|County:彭泽县|Build:中心广场|Institution:百家福超市|Location:对面|Institution:龙城雕刻社卓诗尼鞋店|”;
又例:
“Province:广东|City:深圳市|County:宝安区|Town:石岩街道|Village:福景新村|Road:15巷|BuildNum:1栋|”;
又例:
“Province:河南|City:商丘市|County:睢阳区|Town:高辛镇|Village:斗赵庄苏楼村|”。根据本公开实施例提供的基于深度学习的地址文本处理方法,通过对地址文本进行第一、第二预标注后获得地址文本的实体标签和非实体标签,然后根据地址文本、实体标签和非实体标签训练深度学习模型,获得目标深度学习模型,从而可实现在不需要构建庞大词典库或设计规则的情况下构建可用于标注地址文本的目标深度学习模型,易于维护,便于修改及扩展,降低成本,提高标注的准确率和效率。
图6是根据一示例性实施例示出的一种基于深度学习的地址文本处理方法的流程图。如图6所示的方法例如可以应用于基于深度学习的地址文本处理系统的服务器端。
参考图6,方法60包括:
在步骤S602中,获取初始地址文本。
在步骤S604中,采用正则表达式方法处理初始地址文本中的符号,获得用于训练深度学习模型的地址文本。
在一些实施例中,待标注的初始地址文本可来自订单收货地址,多为用户自己填写,因此很多情况下用户并没有按照一个通用的标准格式去填写。这就造成了初始地址文本中存在很多影响后续处理的无意义的符号,例如:空字符(空格,制表符等),标点符号(逗号、括号等,全角和半角)等。可采用清洗规则树方法对这些符号进行选择性去除和保留,例如,可采用正则表达式方法将全角替换成半角,也可才用正则表达式方法将中文括号替换英文括号,也可采用正则表达式方法去除包括空格、制表符、各种括号、感叹号、引号的常见中文标点。
在步骤S606中,获取用于训练深度学习模型的地址文本。
在步骤S608中,对地址文本进行预标注,获得地址文本的实体标签和非实体标签。
在步骤S610中,根据地址文本、实体标签和非实体标签训练深度学习模型,获得目标深度学习模型。
步骤S606-S610的一些实施例已于步骤S202-S206中进行详述,此处不再赘述。
根据本公开实施例提供的基于深度学习的地址文本处理方法,通过将初始地址文本的符号进行处理后得到的地址文本进行第一、第二预标注,获得地址文本的实体标签和非实体标签,然后根据地址文本、实体标签和非实体标签训练深度学习模型,获得目标深度学习模型,从而可实现在不需要构建庞大词典库或设计规则的情况下构建可用于标注地址文本的目标深度学习模型,易于维护,便于修改及扩展,降低成本,提高标注的准确率和效率。
图7是根据一示例性实施例示出的一种基于深度学习的地址文本处理方法的流程图。如图7所示的方法例如可以应用于基于深度学习的地址文本处理系统的服务器端。
参考图7,方法70包括:
在步骤S702中,获取初始地址文本。
在步骤S704中,将初始地址文本拆分为至少一个用于训练深度学习模型的地址文本。
在一些实施例中,可将按省份分层采样得到的多条地址文本按一定比例划分为用于训练深度学习模型的训练集、验证集和测试集,例如将16600条地址文本划分为包括10800条的训练集、包括2800条的验证集和包括3000条的测试集。
在步骤S706中,获取用于训练深度学习模型的地址文本。
在步骤S708中,对地址文本进行预标注,获得地址文本的实体标签和非实体标签。
在步骤S710中,根据地址文本、实体标签和非实体标签训练深度学习模型,获得目标深度学习模型。
步骤S706-S710的一些实施例已于步骤S202-S206中进行详述,此处不再赘述。
根据本公开实施例提供的基于深度学习的地址文本处理方法,通过将从初始地址文本获取的用于训练深度学习模型的地址文本进行预标注,获得地址文本的实体标签和非实体标签,然后根据地址文本、实体标签和非实体标签训练深度学习模型,获得目标深度学习模型,从而可实现在不需要构建庞大词典库或设计规则的情况下构建可用于标注地址文本的目标深度学习模型,易于维护,便于修改及扩展,降低成本,提高标注的准确率和效率。
图8是根据一示例性实施例示出的一种基于深度学习的地址文本处理装置的框图。
参考图8,装置80包括文本获取模块802、预标注模块804和模型训练模块806:
文本获取模块802可以用于获取用于训练深度学习模型的地址文本;
预标注模块804可以用于对地址文本进行预标注,获得地址文本的实体标签和非实体标签;
模型训练模块806可以用于根据地址文本、实体标签和非实体标签训练深度学习模型,获得目标深度学习模型。
图9是根据一示例性实施例示出的一种基于深度学习的地址文本处理设备的结构示意图。
需要说明的是,图9示出的设备仅以计算机系统为示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图8所示,设备900包括中央处理单元(CPU)901,其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中,还存储有设备900操作所需的各种程序和数据。CPU901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
以下部件连接至I/O接口905:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器920也根据需要连接至I/O接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU)901执行时,执行本公开的系统中限定的上述功能。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括文本获取模块、预标注模块和第一模型训练模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,文本获取模块还可以被描述为“从所连接的存储器获取地址文本的模块”。
作为另一方面,本公开还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,实现上述实施例中的任一方法。
以上具体地示出和描述了本公开的示例性实施例。应可理解的是,本公开不限于这里描述的详细结构、设置方式或实现方法;相反,本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims (10)

1.一种基于深度学习的地址文本处理方法,其特征在于,包括:
获取用于训练深度学习模型的地址文本;
对所述地址文本进行预标注,获得所述地址文本的实体标签和非实体标签;
根据所述地址文本、所述实体标签和所述非实体标签训练所述深度学习模型,获得目标深度学习模型。
2.根据权利要求1所述的方法,其特征在于,还包括:
通过所述目标深度学习模型对待标注的地址文本序列进行处理,获得所述待标注的地址文本序列的实体标签。
3.根据权利要求1所述的方法,其特征在于,所述深度学习模型为双向长短期记忆网络与条件随机场算法模型。
4.根据权利要求3所述的方法,其特征在于,所述根据所述地址文本、所述实体标签和所述非实体标签训练所述深度学习模型,包括:
通过所述双向长短期记忆网络获得所述地址文本中的各个元素相对于各个标签的分数;
基于所述条件随机场算法根据所述地址文本中的各个元素相对于各个标签的分数获得所述地址文本的标注序列;
根据所述地址文本的标注序列、所述实体标签和所述非实体标签更新所述双向长短期记忆网络和所述条件随机场算法的参数。
5.根据权利要求1至4中任意一项所述的方法,其特征在于,所述对所述地址文本进行预标注,包括:
采用正则表达式方法基于数据库对所述地址文本进行第一预标注,获得第一预标注数据;
通过基于web的标注工具将所述预标注数据进行第二预标注,获得所述地址文本的实体标签和非实体标签。
6.根据权利要求1至4中任意一项所述的方法,其特征在于,在所述获取用于训练深度学习模型的地址文本之前,还包括:
获取初始地址文本;
采用正则表达式方法处理所述初始地址文本中的符号,获得用于训练深度学习模型的地址文本。
7.根据权利要求1至4中任意一项所述的方法,其特征在于,在所述获取用于训练深度学习模型的地址文本之前,还包括:
获取初始地址文本;
将所述初始地址文本拆分为至少一个用于训练深度学习模型的地址文本。
8.一种基于深度学习的地址文本处理装置,其特征在于,包括:
文本获取模块,用于获取用于训练深度学习模型的地址文本;
预标注模块,用于对所述地址文本进行预标注,获得所述地址文本的实体标签和非实体标签;
模型训练模块,用于根据所述地址文本、所述实体标签和所述非实体标签训练所述深度学习模型,获得目标深度学习模型。
9.一种基于深度学习的地址文本处理设备,包括:存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令,其特征在于,所述处理器执行所述可执行指令时实现如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机可执行指令,其特征在于,所述可执行指令被处理器执行时实现如权利要求1-7任一项所述的方法。
CN201910895054.1A 2019-09-20 2019-09-20 基于深度学习的地址文本处理方法、装置、设备及介质 Pending CN110688449A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910895054.1A CN110688449A (zh) 2019-09-20 2019-09-20 基于深度学习的地址文本处理方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910895054.1A CN110688449A (zh) 2019-09-20 2019-09-20 基于深度学习的地址文本处理方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN110688449A true CN110688449A (zh) 2020-01-14

Family

ID=69109821

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910895054.1A Pending CN110688449A (zh) 2019-09-20 2019-09-20 基于深度学习的地址文本处理方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN110688449A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581311A (zh) * 2020-04-21 2020-08-25 拉扎斯网络科技(上海)有限公司 一种数据处理的方法、装置、可读存储介质和电子设备
CN112488194A (zh) * 2020-11-30 2021-03-12 上海寻梦信息技术有限公司 地址缩略语生成方法、模型训练方法及相关设备
CN112488103A (zh) * 2020-11-30 2021-03-12 上海寻梦信息技术有限公司 地址信息抽取方法、模型训练方法及相关设备
CN112528023A (zh) * 2020-12-09 2021-03-19 北京百度网讯科技有限公司 训练属性预测模型的方法、属性预测方法和装置
CN113011157A (zh) * 2021-03-19 2021-06-22 中国联合网络通信集团有限公司 地址信息分级处理方法、装置及设备
CN113746946A (zh) * 2020-05-29 2021-12-03 Sap欧洲公司 全球地址解析器
CN114004224A (zh) * 2020-07-17 2022-02-01 中国电信股份有限公司 复杂地址分词方法和装置、计算机可读存储介质
CN114218957A (zh) * 2022-02-22 2022-03-22 阿里巴巴(中国)有限公司 行政区划变迁信息的确定方法、装置、设备及存储介质
CN114626378A (zh) * 2020-12-22 2022-06-14 亚信科技(中国)有限公司 命名实体识别方法、装置、电子设备及计算机可读存储介质
WO2022134592A1 (zh) * 2020-12-23 2022-06-30 深圳壹账通智能科技有限公司 地址信息解析方法、装置、设备及存储介质
CN115146642A (zh) * 2022-07-21 2022-10-04 北京市科学技术研究院 一种面向命名实体识别的训练集自动标注方法及系统
CN115552843A (zh) * 2020-05-11 2022-12-30 贝宝公司 使用机器学习技术确定地理坐标

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090210419A1 (en) * 2008-02-19 2009-08-20 Upendra Chitnis Method and system using machine learning to automatically discover home pages on the internet
CN108280062A (zh) * 2018-01-19 2018-07-13 北京邮电大学 基于深度学习的实体和实体关系识别方法及装置
CN108763212A (zh) * 2018-05-23 2018-11-06 北京神州泰岳软件股份有限公司 一种地址信息提取方法及装置
CN108959252A (zh) * 2018-06-28 2018-12-07 中国人民解放军国防科技大学 基于深度学习的半监督中文命名实体识别方法
CN109684440A (zh) * 2018-12-13 2019-04-26 北京惠盈金科技术有限公司 基于层级标注的地址相似度度量方法
CN109740150A (zh) * 2018-12-20 2019-05-10 出门问问信息科技有限公司 地址解析方法、装置、计算机设备及计算机可读存储介质
CN110008472A (zh) * 2019-03-29 2019-07-12 北京明略软件系统有限公司 一种实体抽取的方法、装置、设备和计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090210419A1 (en) * 2008-02-19 2009-08-20 Upendra Chitnis Method and system using machine learning to automatically discover home pages on the internet
CN108280062A (zh) * 2018-01-19 2018-07-13 北京邮电大学 基于深度学习的实体和实体关系识别方法及装置
CN108763212A (zh) * 2018-05-23 2018-11-06 北京神州泰岳软件股份有限公司 一种地址信息提取方法及装置
CN108959252A (zh) * 2018-06-28 2018-12-07 中国人民解放军国防科技大学 基于深度学习的半监督中文命名实体识别方法
CN109684440A (zh) * 2018-12-13 2019-04-26 北京惠盈金科技术有限公司 基于层级标注的地址相似度度量方法
CN109740150A (zh) * 2018-12-20 2019-05-10 出门问问信息科技有限公司 地址解析方法、装置、计算机设备及计算机可读存储介质
CN110008472A (zh) * 2019-03-29 2019-07-12 北京明略软件系统有限公司 一种实体抽取的方法、装置、设备和计算机可读存储介质

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581311A (zh) * 2020-04-21 2020-08-25 拉扎斯网络科技(上海)有限公司 一种数据处理的方法、装置、可读存储介质和电子设备
CN115552843A (zh) * 2020-05-11 2022-12-30 贝宝公司 使用机器学习技术确定地理坐标
CN113746946A (zh) * 2020-05-29 2021-12-03 Sap欧洲公司 全球地址解析器
CN113746946B (zh) * 2020-05-29 2023-12-12 Sap欧洲公司 全球地址解析器
US11803748B2 (en) * 2020-05-29 2023-10-31 Sap Se Global address parser
CN114004224A (zh) * 2020-07-17 2022-02-01 中国电信股份有限公司 复杂地址分词方法和装置、计算机可读存储介质
CN112488194A (zh) * 2020-11-30 2021-03-12 上海寻梦信息技术有限公司 地址缩略语生成方法、模型训练方法及相关设备
CN112488103A (zh) * 2020-11-30 2021-03-12 上海寻梦信息技术有限公司 地址信息抽取方法、模型训练方法及相关设备
CN112488103B (zh) * 2020-11-30 2024-10-15 上海寻梦信息技术有限公司 地址信息抽取方法、模型训练方法及相关设备
CN112488194B (zh) * 2020-11-30 2024-07-26 上海寻梦信息技术有限公司 地址缩略语生成方法、模型训练方法及相关设备
CN112528023A (zh) * 2020-12-09 2021-03-19 北京百度网讯科技有限公司 训练属性预测模型的方法、属性预测方法和装置
CN112528023B (zh) * 2020-12-09 2024-07-23 北京百度网讯科技有限公司 训练属性预测模型的方法、属性预测方法和装置
CN114626378A (zh) * 2020-12-22 2022-06-14 亚信科技(中国)有限公司 命名实体识别方法、装置、电子设备及计算机可读存储介质
WO2022134592A1 (zh) * 2020-12-23 2022-06-30 深圳壹账通智能科技有限公司 地址信息解析方法、装置、设备及存储介质
CN113011157A (zh) * 2021-03-19 2021-06-22 中国联合网络通信集团有限公司 地址信息分级处理方法、装置及设备
CN114218957B (zh) * 2022-02-22 2022-11-18 阿里巴巴(中国)有限公司 行政区划变迁信息的确定方法、装置、设备及存储介质
CN114218957A (zh) * 2022-02-22 2022-03-22 阿里巴巴(中国)有限公司 行政区划变迁信息的确定方法、装置、设备及存储介质
CN115146642B (zh) * 2022-07-21 2023-08-29 北京市科学技术研究院 一种面向命名实体识别的训练集自动标注方法及系统
CN115146642A (zh) * 2022-07-21 2022-10-04 北京市科学技术研究院 一种面向命名实体识别的训练集自动标注方法及系统

Similar Documents

Publication Publication Date Title
CN110688449A (zh) 基于深度学习的地址文本处理方法、装置、设备及介质
US11151177B2 (en) Search method and apparatus based on artificial intelligence
US10650102B2 (en) Method and apparatus for generating parallel text in same language
CN107679039B (zh) 用于确定语句意图的方法和装置
Lin et al. A deep learning architecture for semantic address matching
CN108628830B (zh) 一种语义识别的方法和装置
CN111709240A (zh) 实体关系抽取方法、装置、设备及其存储介质
US20140006408A1 (en) Identifying points of interest via social media
CN111325022B (zh) 识别层级地址的方法和装置
CN111414561B (zh) 用于呈现信息的方法和装置
CN109684624B (zh) 一种自动识别订单地址路区的方法和装置
CN108491387B (zh) 用于输出信息的方法和装置
CN111274341A (zh) 一种网点选址方法和装置
CN114385780B (zh) 程序接口信息推荐方法、装置、电子设备和可读介质
CN112699656B (zh) 一种广告标题重写方法、装置、设备及储存介质
CN112598039B (zh) 获取nlp分类领域阳性样本方法及相关设备
US20230005283A1 (en) Information extraction method and apparatus, electronic device and readable storage medium
CN110765280A (zh) 地址识别方法和装置
CN111143534A (zh) 基于人工智能的品牌名的提取方法、装置及存储介质
CN114780701A (zh) 自动问答匹配方法、装置、计算机设备及存储介质
Font-Julián et al. Which types of online resource support US patent claims?
CN110807097A (zh) 分析数据的方法和装置
CN114036921A (zh) 一种政策信息匹配方法和装置
CN109710634B (zh) 用于生成信息的方法及装置
CN116166858A (zh) 基于人工智能的信息推荐方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant after: Jingdong Technology Holding Co.,Ltd.

Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant before: Jingdong Digital Technology Holding Co.,Ltd.

Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant after: Jingdong Digital Technology Holding Co.,Ltd.

Address before: Room 221, 2nd floor, Block C, 18 Kechuang 11th Street, Daxing Economic and Technological Development Zone, Beijing, 100176

Applicant before: JINGDONG DIGITAL TECHNOLOGY HOLDINGS Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200114