CN112749532B - 地址文本处理方法、装置及设备 - Google Patents
地址文本处理方法、装置及设备 Download PDFInfo
- Publication number
- CN112749532B CN112749532B CN201911046439.7A CN201911046439A CN112749532B CN 112749532 B CN112749532 B CN 112749532B CN 201911046439 A CN201911046439 A CN 201911046439A CN 112749532 B CN112749532 B CN 112749532B
- Authority
- CN
- China
- Prior art keywords
- address
- digital
- standard
- text
- address text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 238
- 238000004891 communication Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims description 86
- 238000000034 method Methods 0.000 claims description 50
- 239000013598 vector Substances 0.000 claims description 44
- 238000002372 labelling Methods 0.000 claims description 25
- 238000010606 normalization Methods 0.000 claims description 25
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 6
- 230000014509 gene expression Effects 0.000 description 36
- 239000010410 layer Substances 0.000 description 25
- 238000006243 chemical reaction Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 238000013519 translation Methods 0.000 description 5
- 230000000306 recurrent effect Effects 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 3
- 230000002411 adverse Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000002356 single layer Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005429 filling process Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 125000002889 tridecyl group Chemical group [H]C([*])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])[H] 0.000 description 1
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种地址文本处理方法、装置及设备。其中,地址文本处理装置包括编码器、解码器、指示器和生成器,编码器分别与解码器和指示器通信连接,解码器、指示器和生成器三者相互通信连接;编码器用于对地址数码元素中的各地址词进行编码处理;解码器用于对编码器编码处理后输出的编码数据或生成器输出的标准词进行解码处理;指示器用于根据编码数据和解码器解码处理后输出的解码数据,调整地址数码元素中各地址词的权重;生成器用于至少根据解码器输出的解码数据和指示器调整后的权重,生成与地址词对应的标准词,以根据标准词生成与地址数码元素对应的标准地址数码数据。该装置处理效果更好。
Description
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种地址文本处理方法、装置及设备。
背景技术
现有技术中,在地址导航、邮寄快递等领域都需要使用到地址文本,但日常使用的地址文本存在着地址表述不规范、不统一、同一地址具有多种表述方式的问题。例如,繁简混用、中文与阿拉伯字符混用、表述方式不规范等。如,“A小区10栋3单元506室”可能存在着“A小区10号楼3-506室”、“A小区10幢三单元506”或“A小区10-3-506”等多种表述方式。由于这些问题给地址文本解析和标准化造成了很多困难。
现有的地址文本标准化过程通常是采用人工观察数据,并根据观察结果使用正则表达式模板将不同表述方式的地址文本转化为标准模式的地址文本。这种标准化方法耗费人力、且能够覆盖的表述方式有限,无法可靠地将所有的表述方式都转化为标准化的表述方式。
发明内容
有鉴于此,本发明实施例提供一种地址文本处理方案,以解决上述部分或全部问题。
根据本发明实施例的第一方面,提供了一种地址文本处理装置,其包括编码器、解码器、指示器和生成器,所述编码器分别与所述解码器和所述指示器通信连接,所述解码器、所述指示器和所述生成器三者相互通信连接;所述编码器用于对地址数码元素中的各地址词进行编码处理;所述解码器用于对所述编码器编码处理后输出的编码数据或所述生成器输出的标准词进行解码处理;所述指示器用于根据所述编码数据和所述解码器解码处理后输出的解码数据,调整所述地址数码元素中各地址词的权重;所述生成器用于至少根据所述解码器输出的解码数据和所述指示器调整后的权重,生成与地址词对应的标准词,以根据标准词生成与地址数码元素对应的标准地址数码数据。
根据本发明实施例的第二方面,提供了一种地址文本处理方法,其包括:获取包含地址数码元素的待处理的地址文本,并将所述待处理的地址文本输入到上述的地址文本处理装置中;获取所述地址文本处理装置输出的与所述待处理的地址文本对应的标准地址数码数据。
根据本发明实施例提供的地址文本处理方案,通过编码器、解码器、指示器和生成可以对输入的地址数码元素进行自动转换处理,以将地址数码元素准确地转化成满足地址数码输出标准的标准地址数码数据,实现地址文本标准化,节省了人力、且能够全面覆盖各种不同表述方式。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为根据本发明实施例一的一种地址文本处理装置的结构示意图;
图2为根据本发明实施例二的一种地址文本处理装置的结构示意图;
图3为根据本发明实施例四的一种地址文本处理方法的步骤流程图;
图4为根据本发明实施例五的一种地址文本处理方法的步骤流程图;
图5为根据本发明实施例五的一种采用指示器生成网络模型的地址文本处理装置的结构图;
图6为根据本发明实施例六的一种地址文本处理方法的步骤流程图;
图7为根据本发明实施例七的一种地址文本处理设备的结构框图;
图8为根据本发明实施例八的一种地址文本处理设备的结构框图;
图9为根据本发明实施例九的一种电子设备的结构示意图。
具体实施方式
为了使本领域的人员更好地理解本发明实施例中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明实施例一部分实施例,而不是全部的实施例。基于本发明实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本发明实施例保护的范围。
下面结合本发明实施例附图进一步说明本发明实施例具体实现。
实施例一
参照图1,示出了根据本发明实施例一的一种地址文本处理装置的结构示意图。
本实施例的地址文本处理装置包括编码器101、解码器103、指示器105和生成器107,所述编码器101分别与所述解码器103和所述指示器105通信连接,所述解码器103、所述指示器105和所述生成器107三者相互通信连接;所述编码器101用于对地址数码元素中的各地址词进行编码处理;所述解码器103用于对所述编码器101编码处理后输出的编码数据或所述生成器107输出的标准词进行解码处理;所述指示器105用于根据所述编码数据和所述解码器103解码处理后输出的解码数据,调整所述地址数码元素中各地址词的权重;所述生成器107用于至少根据所述解码器103输出的解码数据和所述指示器105调整后的权重,生成与地址词对应的标准词,以根据标准词生成与地址数码元素对应的标准地址数码数据。
在本实施例中,地址文本处理装置用于对地址文本中的地址数码元素进行处理,使其成为标准地址数码数据,从而使地址文本标准化,以便于后续使用。
其中,地址数码元素可以理解为地址文本中包含数码的元素,例如,道路号码(如:969号、212号、212号-214号等)、楼层号码(如:7单元、三单元、12层、负一楼等)、楼号(如:1号楼、10栋、B座等)、屋室号(如:910室、1002户等)等等。
地址数码元素中的地址词可以由本领域技术人员根据实际需求对地址数码元素中的地址词进行设定和划分。例如,969号中的“9”、“6”、“9”和“号”均为地址词。或者如,969号中的地址词也可以是“969”和“号”,等等。本发明实施例不对地址数码元素中的地址词的设定和划分规则进行限制。
编码器101用于对地址数码元素中的地址词进行编码处理,并输出编码数据。本领域技术人员可以根据需要采用任何适当的编码方式实现编码。例如,使用神经网络作为编码器101进行编码,编码器可以是单向长短时记忆网络(LSTM网络)、双向长短时记忆网络、多层长短时记忆网络、门控循环单元网络(GRU,Gated Recur rent Unit)等,只要能够实现对输入的地址数码元素进行编码即可。
编码器101输出的编码数据分别传输至解码器103和指示器105。
其中,在对一个地址文本的一次处理过程中,针对地址数码元素中的各地址词分别输出对应的标准词。针对每个地址词的转化过程,解码器103均进行解码操作。
在针对一个地址文本的一次处理过程中,若解码器103进行的解码操作为首次解码,则解码器103接收编码器101输出的编码数据;若非首次解码,则解码器103接收生成器107输出的标准词(即当前地址词的前一地址词对应的标准词),并对接收的编码数据或标准词进行解码处理,并输出解码数据。本领域技术人员可以采用任何适当解码方式实现解码。例如,采用神经网络作为解码器,解码器可以是单向长短时记忆网络(LSTM网络)、双向长短时记忆网络、多层长短时记忆网络、门控循环单元网络(GRU,Gated Recurrent Unit)等。
解码器103输出的解码数据分别传输至指示器105和生成器107。
在对一个地址文本的一次处理过程中,针对每个地址词,所述指示器105用于根据所述编码数据和所述解码数据,调整所述地址数码元素中各地址词的权重,以使输出的标准词与当前地址词对应。本领域技术人员可以采用任何适当的方式实现权重调整,例如,指示器可以实现为指示器网络(pointer network)。
指示器105调整后的权重传输至生成器107。所述生成器107用于至少根据所述解码数据和所述指示器105调整后的权重,生成与当前地址词对应的标准词,以便根据各标准词生成与地址数据元素对应的标准地址数码数据。
在针对一个地址文本的一次处理过程中,每生成一个标准词后,更新当前地址词,指示器105会选择关注地址数码元素中新的地址词。
通过本实施例,通过编码器101、解码器103、指示器105和生成107可以对输入的地址数码元素进行自动转换处理,以将地址数码元素准确地转化成满足地址数码输出标准的标准地址数码数据,实现地址文本标准化,节省了人力、且能够全面覆盖各种不同表述方式。
此外,在对地址文本的一次处理过程中,指示器105能够根据编码数据和每次解码器103输出的解码数据,调整各地址词的权重,从而能够在每次输出标准词时从地址数码元素中选择关注的内容,从而使得每个待输出的标准词与地址数码元素中各地址词的相关性不同,以减小不相关的地址词对标准词的影响,提升转化的准确性,避免现有的地址翻译模型简单的将地址文本压缩为一个向量之后通过压缩的向量到预设的词典中查找并生成输出文本容易产生抖动、会生成地址文本中不存在的数码的问题,提升地址转化的准确性。
实施例二
参照图2,其示出了本发明实施例二的地址文本处理装置的结构示意图。
本实施例的地址文本处理装置对实施例一中的地址文本处理装置进行了进一步的优化。
如实施例一中所述,地址文本处理装置包括编码器101、解码器103、指示器105和生成器107。
在本实施例中,所述装置还包括文本处理器109,所述文本处理器109与所述编码器101通信连接,用于获取待处理的地址文本中的地址数码元素。
一种情况中,待处理的地址文本可以是从包含海量地址文本的地址库中获取的。在从地址库中获取地址文本时,可以根据地址文本采用的表述方式不同而抽样出一部分地址文本进行地址元素标注,获得地址元素标注信息。
地址元素标注信息用于指示地址元素的类型,如省级类型(prov)、市级(city)、区级(district)、路级(road)、道路号码(roadno)、详细位置(poi)、楼号(houseno)、楼层号(floorno)、屋室号(roomno)等。根据地址元素标注信息获取所有地址元素。
本领域技术人员可以根据需要获得地址元素标注信息,例如,地址文本中的地址元素标注信息可以通过人工对地址文本进行标注,或者通过正则规则对地址文本进行标注,或者训练神经网络模型对地址文本进行标注。
另一种情况中,待处理地址文本可以是用户输入的地址文本。在获取到待处理的地址文本后,可以通过人工对地址文本进行标注,或者通过正则规则对地址文本进行标注,或者训练神经网络模型对地址文本进行标注,以获得地址元素标注信息。
文本处理器109用于从所述地址元素中切分出地址数码元素。
在一种可行方式中,在获取到所有地址元素后,对地址元素进行聚类,将地址元素标注信息相同的地址元素聚成一类,并从聚类结果中切分出包含数码的地址数码元素,如道路号码地址元素、楼号地址元素、楼层号地址元素和屋室号地址元素等。但不限于此,其它切分地址数码元素的方式也同样适用,如关键词提取方式等。
通过本实施例,通过编码器101、解码器103、指示器105和生成107可以对输入的地址数码元素进行自动转换处理,以将地址数码元素准确地转化成满足地址数码输出标准的标准地址数码数据,实现地址文本标准化,节省了人力、且能够全面覆盖各种不同表述方式。
此外,通过文本处理器109可以方便地、准确地从待处理地址文本中获得地址数码元素,提升易用性。
实施例三
本实施例的地址文本处理装置对实施例一中的地址文本处理装置进行了进一步的优化。
如实施例一中所述,地址文本处理装置包括编码器101、解码器103、指示器105和生成器107。地址文本处理装置还可以包括文本处理器109,或者不包括文本处理器109。
在本实施例中,所述指示器105用于对所述解码数据和所述编码数据进行加权平均操作,根据加权平均操作结果确定各个地址词的权重,并根据所述权重获得所述地址数码元素的上下文编码向量。
此种情况下,所述生成器107用于对所述解码数据和所述上下文编码向量进行加权求和操作,根据加权求和操作结果获得所述地址数码元素的词典分布概率;将所述上下文编码向量、所述词典分布概率进行加权求和操作,根据加权求和操作结果获得生成概率;根据所述生成概率、所述上下文编码向量和所述词典分布概率,生成与当前地址词对应的标准词。
这样指示器105能够在每次输出标准词时从地址数码元素中选择关注的内容,从而使得每个待输出的标准词与地址数码元素中各地址词的相关性不同,以减小不相关的地址词对标准词的影响,提升转化的准确性,且生成的上下文编码向量中综合了地址数码元素中所有上下文信息,使得生成器107在生成标准词时能够综合上下文信息,确保了转化的准确性。
在第一种使用场景中,所述地址文本处理装置接收包含数码的待搜索地址文本,并通过所述编码器、所述解码器、所述指示器和所述生成器对所述待搜索地址文本进行归一化处理,根据归一化处理结果生成包含标准地址数码数据的地址文本。
例如,用户在使用地图的搜索功能时、或者填写地址过程中使用地址搜索功能时,输入包含数码的待搜索地址文本,如:“中关村东路十八号”。地址文本处理装置获取到该待搜索地址文本后,将待搜索地址文本输入到编码器,并通过编码器、解码器、指示器和生成器对其进行归一化处理,并输出包含标准地址数码数据的地址文本,即“中关村东路18号”。后续可以根据包含标准地址数码数据的地址文本进行搜索。
当然,标准地址数码数据的表述形式可以根据需要确定,本实施例对此不作限定。
这样地址文本处理装置可以对用户输入的待搜索地址文本中的地址数码元素进行归一化处理,使处理后的待搜索地址文本包含标准地址数码数据,这样在后续进行地址搜索时搜索的准确率更高,确保搜索效果。
在第二种使用场景中,所述地址文本处理装置获取电子名片中的待处理地址文本,并通过所述编码器、所述解码器、所述指示器和所述生成器对所述待处理地址进行归一化处理,根据归一化处理结果生成包含标准地址数码数据的地址文本。
例如,用户在输入电子名片中的地址时,例如,“海淀区中关村东路18号”地址文本处理装置获取待处理地址文本,并通过编码器、所述解码器、所述指示器和所述生成器对所述待处理地址进行归一化处理,使待处理地址文本转换为包含标准地址数码数据的地址文件,即“海淀区中关村东路18号”(例子中的待处理地址文本的表述形式与设定的地址数码输出标准一致)。这样可以使电子名片中的地址表述形式统一,从而确保后续使用电子名片的地址时准确性更好。此外,可选地,地址文本处理装置还可以对待处理地址文本进行一些补全处理。例如,将“海淀区中关村东路18号”补全为“北京市海淀区中关村东路18号”。
这样地址文本处理装置能够对电子名片中的待处理地址文本中的地址数码元素进行归一化处理,使处理后的电子名片中的地址表述形式更加统一和准确,后续使用电子名片中的地址的可靠性更好。例如,将电子名片中的地址文本作为收货地址时,可以使收货地址更加准确,避免不标准的表述形式产生的不利影响。
实施例四
参照图3,示出了根据本发明实施例四的一种地址文本处理方法的步骤流程图。
本实施例的地址文本处理方法包括:获取包含地址数码元素的待处理的地址文本,并将所述待处理的地址文本输入到上述的地址文本处理装置中;获取所述地址文本处理装置输出的与所述待处理的地址文本对应的标准地址数码数据。
地址数码元素可以理解为地址文本中包含数码的元素,例如,道路号码(如:969号、212号、212号-214号等)、楼层号码(如:7单元、三单元、12层、负一楼等)、楼号(如:1号楼、10栋、B座等)、屋室号(如:910室、1002户等)等等。
地址文本处理装置对待处理的地址文本的处理可以如前述的实施例一到三中所述的方式进行处理,故处理过程在此不再赘述。
地址文本处理装置对待处理的地址文本进行处理后,输出与待处理的地址文本中的地址数码元素对应,且满足数码地址输出标准的标准地址数码数据。例如,数码地址输出标准为楼号均以“@号楼”的形式表示,则将“1号楼”、“10栋”等均转换为对应的“1号楼”、“10号楼”等。
这样可以对采用不同的表述方式的待处理的地址文本进行归一化处理,使其表述方式统一、规范,从而便于后续使用地址文本。例如,在搜索地址过程中,使搜索结果更加准确。
可选地,在第一种情况中,前述的包含地址数码元素的待处理的地址文本为包含数码的待搜索地址文本,所述获取包含地址数码元素的待处理的地址文本,并将所述待处理的地址文本输入到所述地址文本处理装置中,包括:将所述包含数码的待搜索地址文本输入所述地址文本处理装置中,并通过所述编码器、所述解码器、所述指示器和所述生成器对所述待搜索地址文本进行归一化处理,输出与所述包含数码的待搜索地址文本对应的标准地址数码数据作为归一化处理结果。
此种情况中,所述方法还包括:根据归一化处理结果生成包含标准地址数码数据的地址文本。
这样地址文本处理装置可以对用户输入的待搜索地址文本中的地址数码元素进行归一化处理,使处理后的待搜索地址文本包含标准地址数码数据,这样在后续进行地址搜索时搜索的准确率更高,确保搜索效果。
可选地,在第二种情况中,前述的包含地址数码元素的待处理的地址文本为电子名片中的待处理地址文本,所述获取包含地址数码元素的待处理的地址文本,并将所述待处理的地址文本输入到所述地址文本处理装置中,包括:将所述电子名片中的待处理地址文本输入所述地址文本处理装置中,并通过所述编码器、所述解码器、所述指示器和所述生成器对所述待处理地址进行归一化处理,输出与所述电子名片中的待处理地址文本对应的标准地址数码数据作为归一化处理结果;
此种情况中,所述方法还包括:根据归一化处理结果生成包含标准地址数码数据的地址文本。
这样地址文本处理装置能够对电子名片中的待处理地址文本中的地址数码元素进行归一化处理,使处理后的电子名片中的地址表述形式更加统一和准确,后续使用电子名片中的地址的可靠性更好。例如,将电子名片中的地址文本作为收货地址时,可以使收货地址更加准确,避免不标准的表述形式产生的不利影响。
可选地,在所述获取包含地址数码元素的待处理的地址文本之前,所述方法还包括:对所述地址文本处理装置进行标准地址数码训练。
例如,地址文本处理装置可以实现为部署有指示器生成网络模型的设备。所述对所述地址文本处理装置进行标准地址数码训练,包括以下步骤:
步骤S102:获取训练用地址文本中的地址数码元素,根据所述地址数码元素生成地址数码样本。
地址数码元素可以理解为地址文本中包含数码的元素,例如,道路号码(如:969号、212号、212号-214号等)、楼层号码(如:7单元、三单元、12层、负一楼等)、楼号(如:1号楼、10栋、B座等)、屋室号(如:910室、1002户等)等等。
如前面的例子中所示,不同的地址文本中包括的地址数码元素不同,但所有的地址数码元素中均包括至少一个地址词。在具体应用中,可以由本领域技术人员根据实际需求对地址数码元素中的地址词进行设定和划分。
例如,969号中的“9”、“6”、“9”和“号”均为地址词。或者如,969号中的地址词也可以是“969”和“号”,等等。本发明实施例不对地址数码元素中的地址词的设定和划分规则进行限制。
在本实施例中,根据地址数码元素生成地址数码样本。由于地址数码样本是根据地址数码元素生成的,因此地址数码样本也包括至少一个地址词。
基于地址数码元素,进一步地可以预先设定对应的地址数码输出标准,以为后续使用。地址数码输出标准用于指示地址数码元素的标准表述方式,本领域技术人员可以根据需要预先设定任何适当的地址数码输出标准,本实施例对此不作限定。
例如,针对道路号码级的地址数码元素,如,12号、十三弄、一百08号等,与其对应的设定的地址数码输出标准的格式可以为“@号”,表示单一道路号码,即最终输出为12号、13号、108号等。基于此,可以为地址数码元素设置标注信息,如,“十三弄”对应的标注信息为13号,据此可以将地址数码样本及其对应的标注信息一起作为输入对指示器生成网络模型进行训练。例如为{12号,12号}、{十三弄,13号}、{一百08号,108号}等。其中,前一项为地址数码样本对应的信息,后一项为该地址数码样本对应的标注信息。
又例如,针对楼层号码级的地址数码元素,如1楼、三层、第17层等,与其对应的设定的地址数码输出标准的格式可以为“@层”,表示单一楼层号码。即最终输出为1层、3层、17层等。基于此,可以为地址数码元素设置标注信息,进而生成的指示器生成网络模型的输入信息,例如为{1楼,1层}、{三层,3层}、{第17层,17层}等。
当然,在其他实施例中,本领域技术人员可以根据需要构建任何适当形式的地址数码样本,本实施例对此不作限定。
步骤S104:以所述地址数码样本为训练样本,以满足地址数码输出标准为训练目标,对地址文本处理装置进行训练,以使用训练的地址文本处理装置获得与输入的地址数码元素对应的标准地址数码数据。
地址文本处理装置可以是部署有指示器生成网络模型的装置。对地址文本处理装置进行训练可以是对指示器生成网络模型进行训练。
指示器生成网络模型是一种具有指示功能的生成网络模型,其可以实现序列(sequence)到序列(sequence)的转换。本实施例的指示器生成网络模型为引入了注意力机制的模型,其包括指示部分和生成部分。
本实施例的指示器生成网络模型能够将不定长的输入序列转换为不定长的输出序列,因而可以将采用任意表述方式的地址数码元素转换为满足设定的地址数码输出标准的标准地址数码数据。
其中,因引入了注意力机制,指示部分可以在每次输出时从输入的地址数码样本中选择关注的内容(如数码部分),生成部分则可以根据输入的地址数码样本将选择关注的内容转化成满足设定的地址数码输出标准的标准词,进而根据标准词确定标准地址数码数据。这样就可以统一不同表述方式的地址文本,实现地址文本的标准化。
指示器生成网络模型的指示部分因引入了注意力机制,能够在每次输出标准词时从地址数码样本中选择关注的内容,从而使得每个待输出的标准词与地址数码样本中各地址词的相关性不同,以减小不相关的地址词对标准词的影响,提升转化的准确性,避免现有的地址翻译模型简单的将地址文本压缩为一个向量之后通过压缩的向量到预设的词典中查找并生成输出文本容易产生抖动、会生成地址文本中不存在的数码的问题,提升了地址转化的准确性。
在一种可行方式中,对地址文本处理装置进行训练时,将地址数码样本中的各地址词输入地址文本处理装置中,由地址文本处理装置对地址数码样本进行处理,并生成与各地址词对应的标准词,再将所有标准词组合成标准地址数码数据。之后,根据标准地址数码数据和设定的地址数码输出标准,调整地址文本处理装置中的训练参数。再将另一地址数码样本输入到地址文本处理装置中继续训练,直至满足训练终止条件(如达到设定训练次数或达到设定训练阈值)。从而,使训练的地址文本处理装置学习到较好的训练参数,能够准确地将输入的地址数码元素转化成对应的标准地址数码数据。
此外,地址文本处理装置的指示部分在生成每个标准词时,可以选择关注地址数码样本中不同的地址词,从而使得生成的标准词与关注的地址词相关性更高,实现标准词与地址词之间的软对齐,从而进一步保证转化的准确性。
例如,地址数码样本为“十二楼”,地址文本处理装置在转化时,指示部分先选择关注地址词“十”,这样生成部分在输出标准词时,“十”对输出的标准词的影响最大,而地址词“二”和“楼”对输出标准词的影响相对变小,使得生成部分可以准确输出与十对应的标准词,即:1。同理,在输出标准词1后,指示部分选择关注地址词“二”,这样“二”对输出的标准词的影响变大,其他的地址词的影响变小,因此,输出的标准词为2。
这样在每次输出标准词时地址文本处理装置都会将注意力集中在与其相关的地址词上,而减少其他不相关的地址词对输出的标准词的干扰,从而提升准确性。
通过本实施例,获取地址文本中的地址数码元素,并根据地址数码元素生成地址数码样本,利用地址数码样本作为训练样本对指示器生成网络进行训练,这样使训练的地址文本处理装置能够对数字敏感,可以准确地转换地址文本中的地址数码元素。通过本实施例,使用训练完成的地址文本处理装置可以自动地对地址文本中的地址数码元素进行转换处理,以将地址数码元素准确地转化成满足地址数码输出标准的标准地址数码数据,实现地址文本标准化,节省了人力、且能够全面覆盖各种不同表述方式。
此外,地址文本处理装置的指示部分能够在每次输出标准词时从地址数码样本中选择关注的内容,从而使得每个待输出的标准词与地址数码样本中各地址词的相关性不同,以减小不相关的地址词对标准词的影响,提升转化的准确性,避免现有的地址翻译模型简单的将地址文本压缩为一个向量之后通过压缩的向量到预设的词典中查找并生成输出文本容易产生抖动、会生成地址文本中不存在的数码的问题,提升地址转化的准确性。
本实施例的地址文本处理方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如平板电脑、手机等)和PC机等。
实施例五
参照图4,示出了根据本发明实施例五的一种地址文本处理方法的步骤流程图。
本实施例以一个具体地址文本处理装置为示例,对本实施例的地址文本处理方法进行说明,该方法包括前述实施例四中所述的步骤S102和S104。
如图5所示,示出了一种采用指示器生成网络模型的地址文本处理装置的结构图。在本实施例中,地址文本处理装置包括编码器、解码器、指示器和生成器。
其中,指示器属于前述的指示部分。编码器、解码器和生成器属于前述的生成部分。
所述编码器用于对地址数码样本中的各个地址词(地址数码样本中包括至少一个地址词)进行编码处理,并输出编码数据。本领域技术人员可以根据需要采用任何适当的神经网络作为编码器,例如,编码器可以是单向长短时记忆网络(LSTM网络)、双向长短时记忆网络、多层长短时记忆网络、门控循环单元网络(GRU,Gated Recurrent Unit)等,只要能够实现对输入的地址数码样本进行编码即可。
所述解码器用于对所述编码数据或当前地址词的前一地址词对应的标准词进行解码处理,并输出解码数据。本领域技术人员可以采用任何适当的神经网络作为解码器,例如,解码器可以是单向长短时记忆网络(LSTM网络)、双向长短时记忆网络、多层长短时记忆网络、门控循环单元网络(GRU,Gated Recurrent Unit)等。
所述指示器用于根据所述编码数据和所述解码数据,调整所述地址数码样本中各地址词的权重。指示器可以实现为指示器网络(pointer network)。
所述生成器用于至少根据所述解码数据和所述指示器调整后的权重,生成与当前地址词对应的标准词。
每生成一个标准词后,更新当前地址词,指示器会选择关注地址数码样本中新的地址词。
基于该结构的地址文本处理装置,在所述步骤S104中,以所述地址数码样本为训练样本,以满足设定的地址数码输出标准为训练目标,对地址文本处理装置进行训练,包括以下子步骤:
子步骤S1041:将所述地址数码样本输入所述地址文本处理装置,通过所述编码器、所述解码器、所述指示器和所述生成器,生成与所述地址数码样本对应的标准地址数码数据。
将地址数码样本作为编码器的输入数据输入到编码器中,同时将根据对应的地址数码输出标准标注的标注数据作为地址文本处理装置的监督(即训练目标)。
设地址数码元素为“十一号到十七号”,对应的地址数码输出标准的表述方式为“@号-@号”,表示连续的楼号,即输出为“11号-17号”。
其中,通过所述编码器、所述解码器、所述指示器和所述生成器,生成与所述地址数码样本对应的标准地址数码数据,包括:
步骤A:获取所述编码器对所述地址数码样本进行编码处理后输出的编码数据。
具体地,通过将地址数码样本的各地址词输入到编码器中,由编码器对各地址词进行编码处理,获取编码数据。
以编码器为单层双向的长短时记忆网络为例,编码时,长短时记忆网络中的隐层(hidden layer)对各地址词进行处理,并获得输出的编码数据。
其中,由于编码器为长短时记忆网络,因此输出的编码数据包括编码语义数据(图5中CJ,其中,J为地址数码样本中最后一个地址词对应的数值,J为大于或等于1的正整数,CJ是最后一个地址词作为输入数据输入到所述编码器中,编码器输出的编码语义数据)和编码隐层数据(图5中h1到hJ,hJ指地址数码样本中的第J个地址词经过编码器隐层处理生成的编码隐层数据)。当然,编码器采用不同的网络其输出的编码数据中的内容可以不同。
步骤B:将所述编码数据或所述当前地址词的前一地址词对应的标准词输入所述解码器中,获得解码数据。
以解码器是单层单向长短时记忆网络为例,其每个处理时刻进行一次解码处理。
在首个处理时刻,解码器的输入数据包括编码器输出的编码数据和<star>等标识字符的信息。在除首个处理时刻之外的处理时刻,解码器的输入包括前一处理时刻输出的前一地址词对应的标准词和前一处理时刻输出的解码数据的部分或全部。
解码时,解码器的隐层对输入的数据进行解码处理,并输出解码数据。其中,解码数据包括解码语义数据(图5中D1到Di,其中,i为大于或等于1的正整数,在首个处理时刻,i等于1,Di为第i个处理时刻解码器输出的解码语义数据)和解码隐层数据(图5中Hi,Hi为第i个处理时刻解码器输出的解码隐层数据)。当然,解码器采用不同的网络其输出的解码数据中的内容可以不同。
步骤C:通过所述指示器对所述解码数据和所述编码数据进行加权平均操作,根据加权平均操作结果确定各地址词的权重,并根据所述权重获得所述地址数码样本的上下文编码向量。
在首个处理时刻,指示器对编码数据中的编码隐层数据(h1~hJ)和解码器当前处理时刻输出的解码数据中的解码隐层数据进行加权平均操作,根据加权平均操作结果确定地址数码样本中各地址词的权重。根据确定的权重生成地址数码样本的上下文编码向量(图5中所示H*)。上下文编码向量用于指示地址数码样本中各地址词之间的语义特征,其可以通过各地址词对应的概率的形式进行表示,以便能够根据该语义特征准确地输出当前时刻的标准词。
具体地,加权平均的计算方法可以是:将当前处理时刻的解码隐层数据分别与各个编码隐层数据h1~hJ进行计算,并对J个计算结果进行加权平均操作(即softmax),使计算结果处于0到1的区间中,且和为1,并将softmax操作的结果作为各地址词的权重。
当然,在其他实施例中,指示器可以采用其他方法计算各地址词的权重,本实施例对此不作限定。
可选地,为了便于计算,在本实施例中,指示器根据计算出的权重生成上下文编码向量。
在第i个处理时刻(i的取值范围为从1到标准地址数码数据所有标准词的数量,本情况中,i可以为2、3、4等大于1的正整数),指示器对编码数据中编码隐层数据和解码器第i个处理时刻输出的解码数据中的解码隐层数据进行加权平均操作,根据加权平均操作结果确定地址数码样本中各地址词的权重。根据确定的权重生成上下文编码向量。
步骤D:通过所述生成器对所述解码数据和所述上下文编码向量进行加权求和操作,根据加权求和操作结果获得所述地址数码样本的词典分布概率。
其中,词典分布概率用于指示当前时刻输出的标准词是词典中各词典词的概率。其中,所述词典根据地址数码样本中的地址词构建。
在本实施例中,词典分布概率根据解码数据中的当前处理时刻的解码隐层数据和上下文编码向量确定。其具体确定手段可以由本领域技术人员根据实际需求采用任意适当的现有技术手段实现,本发明实施例对此不作限制。
步骤E:通过所述生成器将所述上下文编码向量、所述词典分布概率进行加权求和操作,根据加权求和操作结果获得生成概率。
生成概率(图5中所示Pgen)用于指示当前处理时刻输出的标准词的来源,换而言之,根据生成概率确定是从词典中获取当前处理时刻输出的标准词,或者是从地址数码样本的地址词中获取当前处理时刻输出的标准词。
通过获取生成概率,可以在需要时从地址数码样本中直接复制地址词作为输出的标准词,这样就可以避免现有技术中转化时存在的生成地址文本中不存在的数码的问题,提升准确性。
在本实施例中,第i个处理时刻的生成概率根据解码器第i-1个处理时刻的输出数据(记作Yi-1)、解码器第i个处理时刻的解码数据中的解码语义数据(记作Ci)和第i个处理时刻的上下文编码向量H*确定。
在一种可行方式中,生成概率可以表示为公式1:
其中,σ()可以是任何适当的处理函数,如sigmoid函数等,其作为神经网络的阈值函数,将变量映射到0到1之间,从而表示生成概率,本领域技术人员可以根据需要确定。是上下文编码向量H*的权重,H*是第i个处理时刻的上下文编码向量,/>是解码语义数据Ci的权重,Ci是第i个处理时刻的解码语义数据,/>是前一个处理时刻(即第i-1时刻)输出的标准词的权重,Yi-1是第i-1个处理时刻输出的标准词的向量或矩阵表示,b是偏移值。
步骤F:通过所述生成器根据所述生成概率、所述上下文编码向量和所述词典分布概率,生成与当前地址词对应的标准词。
在本实施例中,设输出当前处理时刻的标准词记作P(w),则P(w)的计算方法可以通过下述公式2表示:
P(w)=Pgen*Pvocab(w)+(1-Pgen)Σi:wiH* (公式2)
其中,Pgen为生成概率,Pvocab(w)为词典分布概率,Σi:wiH*为第i个时刻上下文编码向量指示的各地址词的概率。
步骤G:更新当前地址词,并返回所述将获取的当前地址词的前一地址词对应的标准词输入所述解码器中的步骤继续执行,直至所有地址词均生成对应的标准词。
在生成第i个处理时刻的标准词后,在第i+1个处理时刻,更新当前地址词,如在生成第j个(j的取值范围为从1到J)地址词对应的标准词后,当前地址词变为第j+1个地址词,并返回将获取的当前地址词的前一地址词对应的标准词输入所述解码器中的步骤继续执行,以获得新的当前地址词(第j+1个地址词)对应的标准词,直至所有地址词均生成对应的标准词。
步骤H:通过所述生成器根据所有地址词对应的标准词生成与所述地址数码样本对应的标准地址数码数据。
在获得所有地址词对应的标准词后,可以将这些标准词拼接在一起生成与所述地址数码样本对应的标准地址数码数据,或者采用其他方式根据这些标准词生成标准地址数码数据。
在生成标准地址词时,该地址文本处理装置的生成器根据上下文编码向量、前一地址词对应的标准词和解码数据确定了生成概率,从而根据生成概率确定从地址数码样本中选择地址词作为标准词输出或根据词典分布概率将词典中的词作为标准词输出,使得该地址文本处理装置能够很好地适应地址文本标准化过程中有一些信息(如数码)需要保留不作转化的需求,解决了现有技术中对地址文本进行无差别转化,导致输出的地址文本中包含原地址文本不存在的地址数码的问题。
子步骤S1042:确定所述标准地址数码数据和所述地址数码输出标准的差异,根据所述差异调整所述地址文本处理装置的训练参数。
获得标准地址数码数据后,可以根据标准地址数码数据和所述设定的地址数码输出标准的差异(如损失值)调整地址文本处理装置的训练参数(包括但不限于权重等常规训练参数)。本领域技术人员可以采用任何适当的计算方法确定调整后的训练参数,如梯度下降方法等,本实施例对此不作限定。
子步骤S1043:使用调整后的所述训练参数继续对所述地址文本处理装置进行训练,直至满足训练终止条件。
对地址文本处理装置的训练迭代进行,在每次迭代完成对训练参数的调整后,可以返回步骤S1041,将下一个地址数码样本输入到地址文本处理装置,继续对其进行训练,直至满足训练终止条件,如标准地址数码数据和所述设定的地址数码输出标准的差异小于设定值或者训练次数满足设定次数等。
使用训练的地址文本处理装置可以对地址文本中的地址数码元素进行准确转化,实现地址数码元素表述方式的统一,为后续根据地址文本进行导航或其他数据处理提供良好基础。
由前述可见,训练的地址文本处理装置可以实现对地址文本的标准化,该标准化过程包括:
将该地址数码元素输入到训练的地址文本处理装置的编码器中,获得编码器输出的编码数据(其包括编码语义数据和与各地址词对应的编码隐层数据)。
在解码器的首个处理时刻,将编码语义数据和预设的<star>字符输入到解码器中,通过解码器的隐层进行处理获得当前处理时刻的解码数据(其包括当前处理时刻的解码语义数据和当前处理时刻的解码隐层数据)。
指示器根据当前处理时刻的解码隐层数据和各地址词对应的编码隐层数据确定当前处理时刻的上下文编码向量。
生成器根据当前处理时刻的上下文编码向量和当前处理时刻的解码隐层数据确定词典分布概率。
生成器根据当前处理时刻的上下文编码向量、前一地址词对应的标准词(由于当前处理时刻是首个处理时刻,因此前一地址词对应的标准词为预设的<star>字符)和当前处理时刻的解码语义数据,确定生成概率。
生成器根据当前处理时刻的生成概率、上下文编码向量和生成词典分布概率确定当前处理时刻输出的与当前地址词对应的标准词。
在下一处理时刻,将当前处理时刻输出的解码语义数据和当前地址词对应的标准词输入到解码器中,并返回前述通过解码器的隐层对输入数据进行处理的步骤继续执行,直至输出的标准词为指示处理完成的预设字符如<end>。
在获取到所有标准词之后,可以将这些标准词拼接成标准地址数码数据,完成对地址文本的地址数码元素的标准化处理,进而实现地址文本的标准化。
该地址文本处理装置由于是端到端的网络模型,因此训练使用的标注数据方面,只需要考虑地址文本处理装置的输入数据和输出数据即可,不需要针对每种输入数据都去指定人工规则,可以节省大量人力。此外,相比于其他标准化处理方法,地址文本处理装置具有指示器的功能,可以从原始输入的地址词中挑选出无需处理的地址词(如数码本身)进行保留,解决现有技术中对输入数据进行无差别处理造成的输出数码是原文中不存的数码的问题。地址文本处理装置可以在保留原始信息的情况下将地址文本转化为统一表述方式,使后续根据地址文本进行应用如导航或快递分发更加方便准确。通过本实施例,获取地址文本中的地址数码元素,并根据地址数码元素生成地址数码样本,利用地址数码样本作为训练样本对指示器生成网络进行训练,这样使训练的地址文本处理装置能够对数字敏感,可以准确地转换地址文本中的地址数码元素。通过本实施例,使用训练完成的地址文本处理装置可以自动地对地址文本中的地址数码元素进行转换处理,以将地址数码元素准确地转化成满足地址数码输出标准的标准地址数码数据,实现地址文本标准化,节省了人力、且能够全面覆盖各种不同表述方式。
此外,地址文本处理装置的指示部分能够在每次输出标准词时从地址数码样本中选择关注的内容,从而使得每个待输出的标准词与地址数码样本中各地址词的相关性不同,以减小不相关的地址词对标准词的影响,提升转化的准确性,避免现有的地址翻译模型简单的将地址文本压缩为一个向量之后通过压缩的向量到预设的词典中查找并生成输出文本容易产生抖动、会生成地址文本中不存在的数码的问题,提升地址转化的准确性。
训练的地址文本处理装置在生成标准词时,其中的生成器根据生成概率确定当前时刻的标准词是从各地址词中生成还是从词典中生成,进一步确保了转化的准确性。
本实施例的地址文本处理方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如平板电脑、手机等)和PC机等。
实施例六
参照图6,示出了根据本发明实施例六的一种地址文本处理方法的步骤流程图。
本实施例的地址文本方法包括前述实施例四或实施例五的步骤S102~S104。
其中,所述步骤S102包括以下子步骤:
子步骤S1021:根据所述地址文本中的地址元素标注信息,获取所述地址文本中的地址元素。
地址文本可以是从包含海量地址文本的地址库中获取的。在从地址库中获取地址文本时,可以根据地址文本采用的表述方式不同而抽样出一部分地址文本进行地址元素标注,获得地址元素标注信息。
为了保证对地址文本处理装置的训练效果,抽样出的地址文本保证各种表述方式的地址文本数量较为接近,且能够覆盖全部或大部分地址文本的表述方式。
地址元素标注信息用于指示地址元素的类型,如省级类型(prov)、市级(city)、区级(district)、路级(road)、道路号码(roadno)、详细位置(poi)、楼号(houseno)、楼层号(floorno)、屋室号(roomno)等。根据地址元素标注信息获取所有地址元素。
本领域技术人员可以根据需要获得地址元素标注信息,例如,地址文本中的地址元素标注信息可以通过人工对地址文本进行标注,或者通过正则规则对地址文本进行标注,或者训练神经网络模型对地址文本进行标注。
子步骤S1022:从所述地址元素中切分出地址数码元素。
在一种可行方式中,在获取到所有地址元素后,对地址元素进行聚类,将地址元素标注信息相同的地址元素聚成一类,并从聚类结果中切分出包含数码的地址数码元素,如道路号码地址元素、楼号地址元素、楼层号地址元素和屋室号地址元素等。但不限于此,其它切分地址数码元素的方式也同样适用,如关键词提取方式等。
子步骤S1023:根据所述地址数码元素生成所述地址数码样本。
如前所述,地址数码样本可以是仅包括地址数码元素的样本,也可以是既包括地址数码元素,也包括其它元素的样本。
此外,针对不同类型的地址数码元素,可以设定不同的地址数码输出标准,以为地址数码元素设置标注信息,以作为后续地址文本处理装置的训练依据。
通过本实施例,获取地址文本中的地址数码元素,并根据地址数码元素生成地址数码样本,利用地址数码样本作为训练样本对指示器生成网络进行训练,这样使训练的地址文本处理装置能够对数字敏感,可以准确地转换地址文本中的地址数码元素。通过本实施例,使用训练完成的地址文本处理装置可以自动地对地址文本中的地址数码元素进行转换处理,以将地址数码元素准确地转化成满足地址数码输出标准的标准地址数码数据,实现地址文本标准化,节省了人力、且能够全面覆盖各种不同表述方式。
此外,地址文本处理装置的指示部分能够在每次输出标准词时从地址数码样本中选择关注的内容,从而使得每个待输出的标准词与地址数码样本中各地址词的相关性不同,以减小不相关的地址词对标准词的影响,提升转化的准确性,避免现有的地址翻译模型简单的将地址文本压缩为一个向量之后通过压缩的向量到预设的词典中查找并生成输出文本容易产生抖动、会生成地址文本中不存在的数码的问题,提升地址转化的准确性。
并且,根据地址元素标注信息获取地址元素,并从中切分出地址数码元素用于生成地址数码样本,可以提升地址数码样本的生成效率,且可以快速全面地获取到地址数码元素,提升地址文本处理装置的训练效率并降低训练成本。
本实施例的地址文本处理方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如平板电脑、手机等)和PC机等。
实施例七
参照图7,示出了根据本发明实施例七的一种地址文本处理设备的结构框图。
本实施例的地址文本处理设备包括:第一获取模块502,用于获取包含地址数码元素的待处理的地址文本,并将所述待处理的地址文件输入到前述的地址文本处理装置中;输出模块504,用于获取所述地址文本处理装置输出的与所述待处理的地址文本对应的标准地址数码数据。。
通过本实施例,通过编码器、解码器、指示器和生成可以对输入的地址数码元素进行自动转换处理,以将地址数码元素准确地转化成满足地址数码输出标准的标准地址数码数据,实现地址文本标准化,节省了人力、且能够全面覆盖各种不同表述方式。
实施例八
参照图8,示出了根据本发明实施例八的一种地址文本处理设备设备的结构框图。
本实施例的地址文本处理设备包括:第一获取模块602,用于获取包含地址数码元素的待处理的地址文本,并将所述待处理的地址文件输入到前述的地址文本处理设备中;输出模块604,用于获取所述地址文本处理设备输出的与所述待处理的地址文本对应的标准地址数码数据。
可选地,所述设备还包括:训练模块606,用于在所述获取包含地址数码元素的待处理的地址文本之前,对所述地址文本处理装置进行标准地址数码训练。
可选地,所述训练模块606包括:第二获取模块6061,用于获取训练用地址文本中的地址数码元素,根据所述地址数码元素生成地址数码样本;处理模块6062,用于以所述地址数码样本为训练样本,以满足地址数码输出标准为训练目标,对地址文本处理装置进行训练,以使用训练的地址文本处理装置获得与输入的地址数码元素对应的标准地址数码数据。
可选地,所述处理模块6062包括:输入模块,用于将所述地址数码样本输入所述地址文本处理装置,通过所述编码器、所述解码器、所述指示器和所述生成器,生成与所述地址数码样本对应的标准地址数码数据;确定模块,用于确定所述标准地址数码数据和所述地址数码输出标准的差异,根据所述差异调整所述地址文本处理装置的训练参数;调整模块,用于使用调整后的所述训练参数继续对所述地址文本处理装置进行训练,直至满足训练终止条件。
可选地,所述输入模块包括:第三获取模块,用于获取所述编码器对所述地址数码样本进行编码处理后输出的编码数据;第四获取模块,用于将所述编码数据或所述地址文本处理装置输出的前一标准词输入所述解码器中,获得解码数据;权重调整模块,用于通过所述指示器对所述解码数据和所述编码数据进行加权平均操作,根据加权平均操作结果确定各个地址词的权重,并根据所述权重获得所述地址数码样本的上下文编码向量;第五获取模块,用于通过所述生成器对所述解码数据和所述上下文编码向量进行加权求和操作,根据加权求和操作结果获得所述地址数码样本的词典分布概率;第六获取模块,用于通过所述生成器将所述上下文编码向量、所述词典分布概率进行加权求和操作,根据加权求和操作结果获得生成概率;第一生成模块,用于通过所述生成器根据所述生成概率、所述上下文编码向量和所述词典分布概率,生成与当前地址词对应的标准词;更新模块,用于更新当前地址词,并返回所述将获取的当前地址词的前一地址词对应的标准词输入所述解码器中的步骤继续执行,直至所有地址词均生成对应的标准词;第二生成模块,用于根据所有地址词对应的标准词生成与所述地址数码样本对应的标准地址数码数据。
可选地,所述第二获取模块6061包括:第七获取模块,用于根据所述训练用地址文本中的地址元素标注信息,获取所述训练用地址文本中的地址元素;切分模块,用于从所述地址元素中切分出地址数码元素;第三生成模块,用于根据所述地址数码元素生成所述地址数码样本。
可选地,所述包含地址数码元素的待处理的地址文本为包含数码的待搜索地址文本,所述第一获取模块602还用于将所述包含数码的待搜索地址文本输入所述地址文本处理装置中,并通过所述编码器、所述解码器、所述指示器和所述生成器对所述待搜索地址文本进行归一化处理,输出与所述包含数码的待搜索地址文本对应的标准地址数码数据作为归一化处理结果;所述设备还包括:第四生成模块,用于根据归一化处理结果生成包含标准地址数码数据的地址文本。
可选地,所述包含地址数码元素的待处理的地址文本为电子名片中的待处理地址文本,所述第一获取模块还用于将所述电子名片中的待处理地址文本输入所述地址文本处理装置中,并通过所述编码器、所述解码器、所述指示器和所述生成器对所述待处理地址进行归一化处理,输出与所述电子名片中的待处理地址文本对应的标准地址数码数据作为归一化处理结果;所述设备还包括:第五生成模块,用于根据归一化处理结果生成包含标准地址数码数据的地址文本。
本实施例的地址文本处理装置用于实现前述多个方法实施例中相应的地址文本处理方法,并具有相应方法实施例的有益效果,在此不再赘述。
实施例九
参照图9,示出了根据本发明实施例九的一种电子设备的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
如图9所示,该电子设备可以包括:处理器(processor)702、通信接口(Communications Interface)704、存储器(memory)706、以及通信总线708。
其中:
处理器702、通信接口704、以及存储器706通过通信总线708完成相互间的通信。
通信接口704,用于与其它电子设备如终端设备或服务器进行通信。
处理器702,用于执行程序710,具体可以执行上述地址文本处理方法实施例中的相关步骤。
具体地,程序710可以包括程序代码,该程序代码包括计算机操作指令。
处理器702可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器706,用于存放程序710。存储器706可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序710具体可以用于使得处理器702执行以下操作:获取包含地址数码元素的待处理的地址文本,并将所述待处理的地址文本输入到前述的地址文本处理装置中;获取所述地址文本处理装置输出的与所述待处理的地址文本对应的标准地址数码数据。
在一种可选的实施方式中,程序710还用于使得处理器702在所述获取包含地址数码元素的待处理的地址文本之前,对所述地址文本处理装置进行标准地址数码训练。
在一种可选的实施方式中,程序710还用于使得处理器702在对所述地址文本处理装置进行标准地址数码训练时,获取训练用地址文本中的地址数码元素,根据所述地址数码元素生成地址数码样本;以所述地址数码样本为训练样本,以满足地址数码输出标准为训练目标,对地址文本处理装置进行训练,以使用训练的地址文本处理装置获得与输入的地址数码元素对应的标准地址数码数据。
在一种可选的实施方式中,程序710还用于使得处理器702在对所述地址文本处理装置进行标准地址数码训练时,将所述地址数码样本输入所述地址文本处理装置,通过所述编码器、所述解码器、所述指示器和所述生成器,生成与所述地址数码样本对应的标准地址数码数据;确定所述标准地址数码数据和所述地址数码输出标准的差异,根据所述差异调整所述地址文本处理装置的训练参数;使用调整后的所述训练参数继续对所述地址文本处理装置进行训练,直至满足训练终止条件。
在一种可选的实施方式中,程序710还用于使得处理器702在对所述地址文本处理装置进行标准地址数码训练时,获取所述编码器对所述地址数码样本进行编码处理后输出的编码数据;将所述编码数据或所述地址文本处理装置输出的前一标准词输入所述解码器中,获得解码数据;通过所述指示器对所述解码数据和所述编码数据进行加权平均操作,根据加权平均操作结果确定各个地址词的权重,并根据所述权重获得所述地址数码样本的上下文编码向量;通过所述生成器对所述解码数据和所述上下文编码向量进行加权求和操作,根据加权求和操作结果获得所述地址数码样本的词典分布概率;通过所述生成器将所述上下文编码向量、所述词典分布概率进行加权求和操作,根据加权求和操作结果获得生成概率;通过所述生成器根据所述生成概率、所述上下文编码向量和所述词典分布概率,生成与当前地址词对应的标准词;更新当前地址词,并返回所述将获取的当前地址词的前一地址词对应的标准词输入所述解码器中的步骤继续执行,直至所有地址词均生成对应的标准词;根据所有地址词对应的标准词生成与所述地址数码样本对应的标准地址数码数据。
在一种可选的实施方式中,程序710还用于使得处理器702在对所述地址文本处理装置进行标准地址数码训练时,根据所述训练用地址文本中的地址元素标注信息,获取所述训练用地址文本中的地址元素;从所述地址元素中切分出地址数码元素;根据所述地址数码元素生成所述地址数码样本。
在一种可选的实施方式中,所述包含地址数码元素的待处理的地址文本为包含数码的待搜索地址文本,程序710还用于使得处理器702在获取包含地址数码元素的待处理的地址文本,并将所述待处理的地址文本输入到所述地址文本处理装置中时,将所述包含数码的待搜索地址文本输入所述地址文本处理装置中,并通过所述编码器、所述解码器、所述指示器和所述生成器对所述待搜索地址文本进行归一化处理,输出与所述包含数码的待搜索地址文本对应的标准地址数码数据作为归一化处理结果;并根据归一化处理结果生成包含标准地址数码数据的地址文本。
在一种可选的实施方式中,所述包含地址数码元素的待处理的地址文本为电子名片中的待处理地址文本,程序710还用于使得处理器702在获取包含地址数码元素的待处理的地址文本,并将所述待处理的地址文本输入到所述地址文本处理装置中时,将所述电子名片中的待处理地址文本输入所述地址文本处理装置中,并通过所述编码器、所述解码器、所述指示器和所述生成器对所述待处理地址进行归一化处理,输出与所述电子名片中的待处理地址文本对应的标准地址数码数据作为归一化处理结果;并根据归一化处理结果生成包含标准地址数码数据的地址文本。
程序710中各步骤的具体实现可以参见上述地址文本处理方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
通过本实施例的电子设备,获取地址文本中的地址数码元素,并根据地址数码元素生成地址数码样本,利用地址数码样本作为训练样本对指示器生成网络进行训练,这样使训练的地址文本处理装置能够对数字敏感,可以准确地转换地址文本中的地址数码元素。通过本实施例,使用训练完成的地址文本处理装置可以自动地对地址文本中的地址数码元素进行转换处理,以将地址数码元素准确地转化成满足地址数码输出标准的标准地址数码数据,实现地址文本标准化,节省了人力、且能够全面覆盖各种不同表述方式。
需要指出,根据实施的需要,可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本发明实施例的目的。
上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的地址文本处理方法。此外,当通用计算机访问用于实现在此示出的地址文本处理方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的地址文本处理方法的专用计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明实施例的范围。
以上实施方式仅用于说明本发明实施例,而并非对本发明实施例的限制,有关技术领域的普通技术人员,在不脱离本发明实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明实施例的范畴,本发明实施例的专利保护范围应由权利要求限定。
Claims (15)
1.一种地址文本处理装置,其特征在于,包括编码器、解码器、指示器和生成器,所述编码器分别与所述解码器和所述指示器通信连接,所述解码器、所述指示器和所述生成器三者相互通信连接;
所述编码器用于对地址数码元素中的各地址词进行编码处理;
所述解码器用于对所述编码器编码处理后输出的编码数据或所述生成器输出的标准词进行解码处理;
所述指示器用于根据所述编码数据和所述解码器解码处理后输出的解码数据,调整所述地址数码元素中各地址词的权重,所述指示器还用于对所述解码数据和所述编码数据进行加权平均操作,根据加权平均操作结果确定各个地址词的权重,并根据所述权重获得所述地址数码元素的上下文编码向量;
所述生成器用于至少根据所述解码器输出的解码数据和所述指示器调整后的权重,生成与地址词对应的标准词,以根据标准词生成与地址数码元素对应的标准地址数码数据,所述生成器还用于对所述解码数据和所述上下文编码向量进行加权求和操作,根据加权求和操作结果获得所述地址数码元素的词典分布概率;将所述上下文编码向量、所述词典分布概率进行加权求和操作,根据加权求和操作结果获得生成概率;根据所述生成概率、所述上下文编码向量和所述词典分布概率,生成与当前地址词对应的标准词。
2.根据权利要求1所述的装置,其特征在于,所述装置还包括文本处理器,所述文本处理器与所述编码器通信连接,用于获取待处理的地址文本中的地址数码元素。
3.根据权利要求1所述的装置,其特征在于,所述编码器为双向长短时记忆网络层,或者,所述解码器为单向长短时记忆网络层。
4.根据权利要求1所述的装置,其特征在于,所述地址文本处理装置接收包含数码的待搜索地址文本,并通过所述编码器、所述解码器、所述指示器和所述生成器对所述待搜索地址文本进行归一化处理,根据归一化处理结果生成包含标准地址数码数据的地址文本。
5.根据权利要求1所述的装置,其特征在于,所述地址文本处理装置获取电子名片中的待处理地址文本,并通过所述编码器、所述解码器、所述指示器和所述生成器对所述待处理地址进行归一化处理,根据归一化处理结果生成包含标准地址数码数据的地址文本。
6.一种地址文本处理方法,其特征在于,包括:
获取包含地址数码元素的待处理的地址文本,并将所述待处理的地址文本输入到权利要求1-5中任一项所述的地址文本处理装置中;
获取所述地址文本处理装置输出的与所述待处理的地址文本对应的标准地址数码数据。
7.根据权利要求6所述的方法,其特征在于,在所述获取包含地址数码元素的待处理的地址文本之前,所述方法还包括:
对所述地址文本处理装置进行标准地址数码训练。
8.根据权利要求7所述的方法,其特征在于,所述对所述地址文本处理装置进行标准地址数码训练,包括:
获取训练用地址文本中的地址数码元素,根据所述地址数码元素生成地址数码样本;
以所述地址数码样本为训练样本,以满足地址数码输出标准为训练目标,对地址文本处理装置进行训练,以使用训练的地址文本处理装置获得与输入的地址数码元素对应的标准地址数码数据。
9.根据权利要求8所述的方法,其特征在于,所述对所述地址文本处理装置进行标准地址数码训练,包括:
将所述地址数码样本输入所述地址文本处理装置,通过所述编码器、所述解码器、所述指示器和所述生成器,生成与所述地址数码样本对应的标准地址数码数据;
确定所述标准地址数码数据和所述地址数码输出标准的差异,根据所述差异调整所述地址文本处理装置的训练参数;
使用调整后的所述训练参数继续对所述地址文本处理装置进行训练,直至满足训练终止条件。
10.根据权利要求9所述的方法,其特征在于,所述对所述地址文本处理装置进行标准地址数码训练,包括:
获取所述编码器对所述地址数码样本进行编码处理后输出的编码数据;
将所述编码数据或所述地址文本处理装置输出的前一标准词输入所述解码器中,获得解码数据;
通过所述指示器对所述解码数据和所述编码数据进行加权平均操作,根据加权平均操作结果确定各个地址词的权重,并根据所述权重获得所述地址数码样本的上下文编码向量;
通过所述生成器对所述解码数据和所述上下文编码向量进行加权求和操作,根据加权求和操作结果获得所述地址数码样本的词典分布概率;
通过所述生成器将所述上下文编码向量、所述词典分布概率进行加权求和操作,根据加权求和操作结果获得生成概率;
通过所述生成器根据所述生成概率、所述上下文编码向量和所述词典分布概率,生成与当前地址词对应的标准词;
更新当前地址词,并返回将获取的当前地址词的前一地址词对应的标准词输入所述解码器中的步骤继续执行,直至所有地址词均生成对应的标准词;
根据所有地址词对应的标准词生成与所述地址数码样本对应的标准地址数码数据。
11.根据权利要求8所述的方法,其特征在于,所述对所述地址文本处理装置进行标准地址数码训练包括:
根据所述训练用地址文本中的地址元素标注信息,获取所述训练用地址文本中的地址元素;
从所述地址元素中切分出地址数码元素;
根据所述地址数码元素生成所述地址数码样本。
12.根据权利要求6所述的方法,其特征在于,所述包含地址数码元素的待处理的地址文本为包含数码的待搜索地址文本,所述获取包含地址数码元素的待处理的地址文本,并将所述待处理的地址文本输入到所述地址文本处理装置中,包括:
将所述包含数码的待搜索地址文本输入所述地址文本处理装置中,并通过所述编码器、所述解码器、所述指示器和所述生成器对所述待搜索地址文本进行归一化处理,输出与所述包含数码的待搜索地址文本对应的标准地址数码数据作为归一化处理结果;
所述方法还包括:
根据归一化处理结果生成包含标准地址数码数据的地址文本。
13.根据权利要求6所述的方法,其特征在于,所述包含地址数码元素的待处理的地址文本为电子名片中的待处理地址文本,所述获取包含地址数码元素的待处理的地址文本,并将所述待处理的地址文本输入到所述地址文本处理装置中,包括:
将所述电子名片中的待处理地址文本输入所述地址文本处理装置中,并通过所述编码器、所述解码器、所述指示器和所述生成器对所述待处理地址进行归一化处理,输出与所述电子名片中的待处理地址文本对应的标准地址数码数据作为归一化处理结果;
所述方法还包括:
根据归一化处理结果生成包含标准地址数码数据的地址文本。
14.一种地址文本处理设备,其特征在于,包括:
第一获取模块,用于获取包含地址数码元素的待处理的地址文本,并将所述待处理的地址文件输入到权利要求1-5中任一项所述的地址文本处理装置中;
输出模块,用于获取所述地址文本处理装置输出的与所述待处理的地址文本对应的标准地址数码数据。
15.一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求6-13中任一所述的地址文本处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911046439.7A CN112749532B (zh) | 2019-10-30 | 2019-10-30 | 地址文本处理方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911046439.7A CN112749532B (zh) | 2019-10-30 | 2019-10-30 | 地址文本处理方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112749532A CN112749532A (zh) | 2021-05-04 |
CN112749532B true CN112749532B (zh) | 2024-06-21 |
Family
ID=75640704
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911046439.7A Active CN112749532B (zh) | 2019-10-30 | 2019-10-30 | 地址文本处理方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112749532B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113157871B (zh) * | 2021-05-27 | 2021-12-21 | 宿迁硅基智能科技有限公司 | 应用人工智能的新闻舆情文本处理方法、服务器及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106489241A (zh) * | 2014-06-27 | 2017-03-08 | 古鲁洛吉克微系统公司 | 编码器、解码器和方法 |
CN108122593A (zh) * | 2016-11-30 | 2018-06-05 | 台湾积体电路制造股份有限公司 | 数据存储装置、用于其的地址解码器及其操作方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10110240B4 (de) * | 2001-02-28 | 2005-07-07 | Characterisation Gmbh | Verfahren zur Bereitstellung von IP-Adressen zu Sonderzeichen beinhaltenden Internet-Adressen |
US8868479B2 (en) * | 2007-09-28 | 2014-10-21 | Telogis, Inc. | Natural language parsers to normalize addresses for geocoding |
WO2013078651A1 (en) * | 2011-11-30 | 2013-06-06 | Nokia Corporation | Method and apparatus for providing address geo-coding |
US10395654B2 (en) * | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10929799B2 (en) * | 2017-06-29 | 2021-02-23 | Amazon Technologies, Inc. | Identification of inaccurate addresses for package deliveries |
CN110019575A (zh) * | 2017-08-04 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 对地理地址进行标准化的方法和装置 |
CN109960795B (zh) * | 2019-02-18 | 2024-05-07 | 平安科技(深圳)有限公司 | 一种地址信息标准化方法、装置、计算机设备及存储介质 |
CN110210020B (zh) * | 2019-05-22 | 2023-06-20 | 武汉虹旭信息技术有限责任公司 | 通讯地址标准化的系统及其方法 |
-
2019
- 2019-10-30 CN CN201911046439.7A patent/CN112749532B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106489241A (zh) * | 2014-06-27 | 2017-03-08 | 古鲁洛吉克微系统公司 | 编码器、解码器和方法 |
CN108122593A (zh) * | 2016-11-30 | 2018-06-05 | 台湾积体电路制造股份有限公司 | 数据存储装置、用于其的地址解码器及其操作方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112749532A (zh) | 2021-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10380996B2 (en) | Method and apparatus for correcting speech recognition result, device and computer-readable storage medium | |
CN113313022B (zh) | 文字识别模型的训练方法和识别图像中文字的方法 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN111581229A (zh) | Sql语句的生成方法、装置、计算机设备及存储介质 | |
CN113657399A (zh) | 文字识别模型的训练方法、文字识别方法及装置 | |
CN111222317A (zh) | 序列标注方法、系统和计算机设备 | |
CN109660865B (zh) | 为视频自动打视频标签的方法及装置、介质和电子设备 | |
CN113392253B (zh) | 视觉问答模型训练及视觉问答方法、装置、设备及介质 | |
CN113673228B (zh) | 文本纠错方法、装置、计算机存储介质及计算机程序产品 | |
CN114724168A (zh) | 深度学习模型的训练方法、文本识别方法、装置和设备 | |
CN112148839A (zh) | 图文匹配方法、装置及存储介质 | |
CN114973229B (zh) | 文本识别模型训练、文本识别方法、装置、设备及介质 | |
CN112086087A (zh) | 语音识别模型训练方法、语音识别方法及装置 | |
CN114861637B (zh) | 拼写纠错模型生成方法和装置、拼写纠错方法和装置 | |
CN112749532B (zh) | 地址文本处理方法、装置及设备 | |
EP4401074A1 (en) | Speech recognition method, apparatus and device, and storage medium | |
CN116050352A (zh) | 文本编码方法和装置、计算机设备及存储介质 | |
CN115359323A (zh) | 图像的文本信息生成方法和深度学习模型的训练方法 | |
CN115100659A (zh) | 文本识别方法、装置、电子设备和存储介质 | |
CN114758330A (zh) | 一种文本识别方法、装置、电子设备和存储介质 | |
US20220207286A1 (en) | Logo picture processing method, apparatus, device and medium | |
CN117038099A (zh) | 医疗类术语标准化方法以及装置 | |
CN111444319B (zh) | 文本匹配方法、装置和电子设备 | |
CN115618043A (zh) | 文本操作图互检方法及模型训练方法、装置、设备、介质 | |
CN114117051A (zh) | 词性标注模型的训练方法、词性标注方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |