CN112749560A - 地址文本处理方法、装置、设备及计算机存储介质 - Google Patents

地址文本处理方法、装置、设备及计算机存储介质 Download PDF

Info

Publication number
CN112749560A
CN112749560A CN201911046400.5A CN201911046400A CN112749560A CN 112749560 A CN112749560 A CN 112749560A CN 201911046400 A CN201911046400 A CN 201911046400A CN 112749560 A CN112749560 A CN 112749560A
Authority
CN
China
Prior art keywords
address text
address
layer
input
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911046400.5A
Other languages
English (en)
Inventor
刘楚
郑华飞
谢朋峻
李林琳
司罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201911046400.5A priority Critical patent/CN112749560A/zh
Publication of CN112749560A publication Critical patent/CN112749560A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本申请实施例提供了一种地址文本处理方法及装置。地址文本处理装置包括:输入层,所述输入层包括多个输入节点,所述输入层用于接收地址文本并对所述地址文本进行编码;隐层,所述隐层包括多个层,每个层包括多个隐层节点,所述隐层与所述输入层通信连接,并对所述输入层输出的编码信息进行处理;输出层,所述输出层与所述隐层通信连接,并依据所述隐层的输出得到处理后的地址文本;其中,所述输入层和隐层之间为全向通信连接,以及相邻两个隐层的隐层节点之间为全向通信连接;所述隐层节点用于实现在对编码信息进行处理的过程中处理所述地址文本中包含的上下文信息。通过本申请实施例,地址文本处理效率更好。

Description

地址文本处理方法、装置、设备及计算机存储介质
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种地址文本处理方法、装置、设备及计算机存储介质。
背景技术
现有技术中,日常使用的地址文本存在着地址文本表述不规范、不统一、不完全的问题。例如,繁简混用、中文与阿拉伯字符混用、表述方式不规范、缺少部分行政区划等。
例如,“余杭区文一西路”仅包括区级行政区划信息,无省级、市级等的行政区划信息。“内蒙古呼和浩特市”中的内蒙古是内蒙古自治区的简称。为了便于后续根据地址文本进行导航等操作,需要对地址文本进行标准化处理,如进行行政区划补齐操作和归一化操作。补齐操作是指将缺失的行政区划补齐,归一化操作是将同一行政区划的不同表述方式统一。
现有技术中,一种行政区划处理方式是:维护一张包含所有的行政区划的表格;在针对地址文本进行标准化处理时,对输入的地址文本做分词操作和行政区划标记操作;之后再通过查表来做行政区划补齐操作和归一化操作。这种标准化处理方式存在着需要预制较为复杂的匹配规则,导致匹配规则维护不易、需要较多人工干预的问题,影响处理效率。
发明内容
有鉴于此,本申请实施例提供一种地址文本处理方案,以解决上述部分或全部问题。
根据本申请实施例的第一方面,提供一种地址文本处理装置,其包括:输入层,所述输入层包括多个输入节点,所述输入层用于接收地址文本并对所述地址文本进行编码;隐层,所述隐层包括多个层,每个层包括多个隐层节点,所述隐层与所述输入层通信连接,并对所述输入层输出的编码信息进行处理;输出层,所述输出层与所述隐层通信连接,并依据所述隐层的输出得到处理后的地址文本;其中,所述输入层和隐层之间为全向通信连接,以及相邻两个隐层的隐层节点之间为全向通信连接;所述隐层节点用于实现在对编码信息进行处理的过程中处理所述地址文本中包含的上下文信息。
根据本申请实施例的第二方面,提供一种地址文本处理方法,其包括:使用遮挡标识符对待处理的地址文本进行行政区划信息补齐,生成补齐后的地址文本;将所述补齐后的地址文本输入到第一方面中所述的地址文本处理装置中,通过所述地址文本处理装置对所述补齐后的地址文本进行处理;获取所述地址文本处理装置输出的标准地址文本,其中,所述标准地址文本中,所述遮挡标识符所标识的文本被替换为标准行政区划信息。
根据本申请实施例的第三方面,提供一种地址文本处理设备,其包括:占位补齐模块,用于使用遮挡标识符对待处理的地址文本进行行政区划补齐,生成补齐后的地址文本;处理模块,用于将所述补齐后的地址文本输入到第一方面所述的地址文本处理装置中,通过所述地址文本处理装置对所述补齐后的地址文本进行处理;标准地址输出模块,用于获取所述地址文本处理装置输出的标准地址文本,其中,所述标准地址文本中,所述遮挡标识符所标识的文本被替换为标准行政区划信息。
根据本申请实施例的第三方面,提供一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第二方面所述的地址文本处理方法。
根据本申请实施例提供的地址文本处理方案,地址文本处理装置能够对地址文本进行处理,针对行政区划信息不规范的地址文本,可以对其中已有的行政区划数据进行标准化;对于缺少行政区划信息的地址文本,可以补全地址文本中缺失的行政区划数据,从而实现对地址文本的标准化处理,方便后续使用地址文本。而且解决了现有技术中的地址文本标准化处理方式存在需要预制较为复杂的匹配规则,导致匹配规则维护不易、需要较多人工干预的问题,提升了处理效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为根据本申请实施例一的一种地址文本处理装置的结构示意图;
图2为根据本申请实施例二的一种地址文本处理装置的隐层节点的结构示意图;
图3A为根据本申请实施例三的一种地址文本处理方法的步骤流程图;
图3B为图3A所示实施例中的一种地址文本处理装置的训练过程的流程图;
图4为根据本申请实施例四的地址文本处理方法中的一种地址文本处理装置的训练方法的流程图;
图5为根据本申请实施例五的一种地址文本处理设备的结构框图;
图6为根据本申请实施例六的一种地址文本处理设备的结构框图;
图7为根据本申请实施例七的一种电子设备的结构示意图。
具体实施方式
为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
下面结合本申请实施例附图进一步说明本申请实施例具体实现。
实施例一
参照图1,示出了根据本申请实施例一的一种地址文本处理装置的结构示意图。
本实施例的地址文本处理装置包括输入层101、隐层103和输出层105。所述输入层101包括多个输入节点1011,所述输入层101用于接收地址文本并对所述地址文本进行编码。所述隐层103包括多个层,每个层包括多个隐层节点1031,所述隐层103与所述输入层101通信连接,并对所述输入层101输出的编码信息进行处理。所述输出层105与所述隐层103通信连接,并依据所述隐层103的输出得到处理后的地址文本。其中,所述输入层101和隐层103之间为全向通信连接,以及相邻两个隐层103的隐层节点1031之间为全向通信连接;所述隐层节点1031用于实现在对编码信息进行处理的过程中处理所述地址文本中包含的上下文信息。
地址文件信息可以包括行政区划数据,也可以不包括行政区划数据。例如,“北京市海淀区中关村街道56号”、“内蒙呼和浩特市”、“杭州市余杭区”、“十八里店乡老君堂村”等等。
在本实施例中,所述地址文本中的词语可以仅包括地址词,或者也可以包括地址词和遮挡标识符。
其中,地址词可以理解为构成地址文本的元素,地址词包括但不限于:省级元素、市级元素、区级元素、镇级元素、道路元素、小区元素、楼号元素、楼层元素和屋室元素等。其中,省级元素、市级元素、区级元素和镇级元素为包含行政区划信息的地址词。当然,不同的适用场景中行政区划的分级可能不同,包含行政区划的地址词也可能不同,本实施例对此不作限定。
本领域技术人员可以根据需要采用任何适当的符号和/或字符作为遮挡标识符,例如:“[mask]”、“***”等等,本实施例对此不作限定。
输入层101包括多个输入节点1011,每个输出节点1051用于接收地址文本中的一个词语,并对该词语进行编码处理。输入层101可以采用适当的方式对地址文本进行编码处理。例如,对地址文本中的词语(例如地址词)进行词向量编码,将词语处理为对应的词向量。
又例如,所述输入层101包括词向量编码层和位置信息编码层。词向量编码层和位置信息编码层均包括多个输入节点1011,词向量编码层的输入节点1011用于将接收的地址文本中的词语编码处理为对应的词向量。所述位置编码层中的输入节点1011用于根据所述词语在所述地址文本中的位置信息,将词向量编码处理为输入词向量,并将所述输入词向量作为所述编码信息输入到所述隐层103。
词向量编码层可以采用任何适当的方式将词语编码处理为对应的词向量。例如,采用Word2vec方式、one-hot方式、N-gram方式等。
隐层103(hidden layer)包括多个层,每个层中包括多个隐层节点1031。每个隐层节点1031可以是一个神经元。所述隐层103与所述输入层101通信连接,并对所述输入层101输出的编码信息进行处理。所述隐层节点1031用于实现在对编码信息进行处理的过程中处理所述地址文本中包含的上下文信息。通过对编码信息进行处理获取地址文本中包含的上下文信息。
在本实施例中,输入层101包括多个输入节点1011,隐层节点1031与输入层101之间为全向通信连接,以及相邻两个隐层103的隐层节点1031之间为全向通信连接。即每个隐层节点1031与所有输入节点1011通信连接。后一层的任意一个隐层节点1031与前一层的所有隐层节点1031通信连接。这样使得任何一个隐层节点1031均可以获得地址文本中的所有词语,从而可以保证对地址文本进行处理过程中可以获得所有上下文信息,保证处理的准确性。隐层103对编码信息的处理可以根据需要确定,本实施例对此不作限定。
输出层105与隐层103通信连接,用于根据连接的隐层103的输出得到处理后的地址文本。在本实施例中,输出层105包括多个输出节点1051,且每个输出节点1051仅与一个隐层节点1031连接。输出层105可以采用任何适当的方式根据连接的隐层103的输出得到处理后的地址文本。例如,输出层105可以是分类器,通过分类的方式得到处理后的地址文本。
在本实施例中,文本处理装置的前M个输出节点1051用于输出标准行政区划信息。其中,M为大于1的正整数。例如,在本实施例中,前4个输出节点1051用于输出标准行政区划信息,分别对应省级、市级、区级和镇级。
通过本实施例,地址文本处理装置能够对地址文本进行处理,针对行政区划信息不规范的地址文本,可以对其中已有的行政区划数据进行标准化;对于缺少行政区划信息的地址文本,可以补全地址文本中缺失的行政区划数据,从而实现对地址文本的标准化处理,方便后续使用地址文本。而且解决了现有技术中的地址文本标准化处理方式存在需要预制较为复杂的匹配规则,导致匹配规则维护不易、需要较多人工干预的问题,提升了处理效率。
实施例二
参照图2,其示出了本申请的实施例二的地址文本处理装置的结构示意图。
本实施例的地址文本处理装置对实施例一中的地址文本处理装置进行了进一步的优化。
如实施例一中所述,地址文本处理装置包括输入层101、隐层103和输出层105。其中,所述隐层103包括多个层,每个层均包括多个隐层节点1031。各所述隐层节点1031均包括多头自注意力层1031a和前馈网络层1031b。
所述多头自注意力层1031a用于从所述输入层101中与当前隐层节点1031对应的输入节点1011输出的编码信息和所述输入层101中的其他输入节点1011输出的编码信息中提取上下文信息。例如,针对图2中第一列的隐层节点1031,其对应的输入节点1011为E1节点。针对图2中第二列的隐层节点1031,其对应的输入节点1011为E2节点。
通过多头自注意力层1031a可以很好地从编码信息中提取出地址文本中与该当前隐层节点1031主要处理的词语对应的上下文信息。例如,第一列中的隐层节点1031对应的输入节点1011E1中输入的词语为“北京”,第一列中的隐层节点1031用于处理地址文本中各词语与“北京”的上下文信息。从而可以根据上下文信息很好地预测出“北京”对应于的标准行政区划信息,以保证处理效果。
所述前馈网络层1031b用于接收并处理对应的多头自注意力层1031a输出的所述上下文信息。例如,对上下文信息进行降维处理等。根据需要的不同,前馈网络层1031b可以对上下文信息进行不同的处理,本实施例对此不作限定。
可选地,各所述隐层节点1031还包括第一归一化层1031c和/或第二归一化层1031d。
所述第一归一化层1031c通信连接于所述多头自注意力层1031a和所述前馈网络层1031b之间,对所述多头自注意力层1031a输出的上下文信息进行归一化处理,并将归一化处理结果传输至所述前馈网络层1031b。
本领域技术人员可以根据需要采用适当的方式对上下文信息进行归一化处理,本实施例对此不作限定。
所述第二归一化层1031d通信连接于所述前馈网络层1031b之后,对所述前馈网络层1031b输出的数据进行归一化处理。本领域技术人员可以根据需要对前馈网络层1031b输出的数据进行归一化处理,本实施例对此不作限定。第一归一化层1031c和第二归一化层1031d的归一化处理方式可以相同或不同。
可选地,在本实施例中,所述地址文本处理装置接收输入法应用的调用,通过所述输入层101接收所述输入法应用发送的地址文本,并经所述输入层101、所述隐层103的处理,通过所述输出层105向所述输入法应用输出转换的标准地址文本并通过所述输入法应用进行展示。
地址文本处理装置可以提供调用接口(API),输入法应用通过调用该调用接口,向地址文本处理装置的输入层101传输地址文本,输入层101接收到地址文本后,对其进行编码处理,并将编码处理的编码信息输入到隐层103进行处理。输出层105用于将根据隐层103的输出得到的处理后的标准地址文本输出到输入法应用,并通过输入法应用进行展示。
例如,用户通过输入法应用输入“海淀区中关村东路”,地址文本处理装置根据输入法的调用,将“海淀区中关村东路”处理为“北京市海淀区中关村东路”,并输出给输入法应用。这样使用户可以快速地输入标准的地址文本,既保证了用户填写地址时的准确性,又无需用户自己进行繁琐的输入。
通过本实施例,地址文本处理装置能够对地址文本进行处理,针对行政区划信息不规范的地址文本,可以对其中已有的行政区划数据进行标准化;对于缺少行政区划信息的地址文本,可以补全地址文本中缺失的行政区划数据,从而实现对地址文本的标准化处理,方便后续使用地址文本。而且解决了现有技术中的地址文本标准化处理方式存在需要预制较为复杂的匹配规则,导致匹配规则维护不易、需要较多人工干预的问题,提升了处理效率。
实施例三
参照图3A,示出了根据本申请实施例三的一种地址文本处理方法的步骤流程图。
本实施例的地址文本处理方法包括:
步骤S10:使用遮挡标识符对待处理的地址文本进行行政区划信息补齐,生成补齐后的地址文本。
步骤S20:将所述补齐后的地址文本输入到上述的地址文本处理装置中,通过所述地址文本处理装置对所述补齐后的地址文本进行处理。
步骤S30:获取所述地址文本处理装置输出的标准地址文本,其中,所述标准地址文本中,所述遮挡标识符所标识的文本被替换为标准行政区划信息。
本领域技术人员可以根据需要采用任何适当的符号和/或字符作为遮挡标识符,例如:“[mask]”、“***”等等,本实施例对此不作限定。例如,地址文本为“北京中关村街道56号”,使用遮挡标识符对其进行行政区划信息补齐后的地址文本可以为“北京[mask]中关村街道56号”。
将补齐后的地址文本作为地址文本输入到地址文本处理装置中,以通过其对地址文本进行处理,并输出标准地址文本。在标准地址文本中,所述遮挡标识符所标识的文本被替换为标准行政区划信息。如,“北京市海淀区中关村街道56号”。
通过该方法可以对地址文本进行标准化处理,从而使后续使用标准地址文本,以提升可靠性和准确性。
可选地,所述待处理地址文本为接收输入法应用的调用,通过所述输入层接收所述输入法应用发送的待处理的地址文本,所述方法还包括:通过所述输出层向所述输入法应用输出转换的标准地址文本并通过所述输入法应用进行展示。
例如,用户通过输入法应用输入了地址文本“北京中关村东路”,输入法应用接收到该地址文本后,调用地址文本处理装置,地址文本处理装置对其进行处理,将其转换处理为标准地址文本“北京市海淀区中关村东路”,再发送给输入法应用,输入法应用接收到该转换后的标准地址文本后,通过候选词界面显示该标准地址文本,以供用户选用。
通过接收输入法应用的调用,可以获取输入法应用发送的待处理的地址文本,通过地址文本处理装置执行前述的步骤可以将待处理的地址文本处理为包含标准行政区划信息的标准地址文本,并将标准地址文本传输到输入法应用进行展示,这样用户可以通过输入法方便地输入标准地址文本,使用户使用方便,又能够保证输入地址文本准确。
在本实施例中,在所述使用遮挡标识符对待处理的地址文本进行行政区划信息补齐之前,所述方法还包括:对所述地址文本处理装置进行标准区划训练。
其中,在一种可行方式中,对所述地址文本处理装置进行标准区划训练,如图3B所示,可以包括以下步骤:
步骤S102:对第一地址文本的至少部分地址词进行第一遮挡操作,根据第一遮挡结果生成预训练样本,并使用所述预训练样本对用于进行地址文本处理的地址文本处理装置进行预训练。
在本实施例中,地址文本处理装置可以是双向语言模型。
第一地址文本可以是通用地址文本,其可以包括行政区划数据,也可以不包括行政区划数据。例如,“北京市海淀区中关村街道56号”、“内蒙呼和浩特市”、“杭州市余杭区”、“十八里店乡老君堂村”等等。
地址词可以理解为构成第一地址文本的元素,地址词包括但不限于:省级元素、市级元素、区级元素、镇级元素、道路元素、小区元素、楼号元素、楼层元素和屋室元素等。其中,省级元素、市级元素、区级元素和镇级元素为包含行政区划信息的地址词。
当然,不同的适用场景中行政区划的分级可能不同,包含行政区划的地址词也可能不同,本实施例对此不作限定。
第一遮挡操作可以实现为替换操作、删除操作等。例如,采用预设的遮挡标识符替换需要被遮挡的至少部分地址词。本领域技术人员可以根据需要采用任何适当的符号和/或字符作为遮挡标识符,例如:“[mask]”、“***”等等,本实施例对此不作限定。
如,第一地址文本为:“北京市海淀区中关村街道56号”,若对地址词“海淀区”进行第一遮挡操作,则对应的第一遮挡结果为:“北京市***中关村街道56号”。
预训练样本根据第一遮挡结果生成,其用于对地址文本处理装置进行预训练。在预训练时,可以采用较为通用、更加容易获取的第一地址文本生成预训练样本,这样可以减少训练样本的收集和处理成本。
根据需要的不同,本领域技术人员可以采用具有不同结构的、用于进行地址文本处理的地址文本处理装置,本实施例对此不作限定。
例如,在本实施例中,地址文本处理装置包括输入层、多个隐层(hidden layer)和输出层,各隐层中均包括多个并列的神经元。隐层接收与之连接的输入层的数据,并用于对接收的数据进行处理,根据需要进行的处理不同,隐层中的神经元可以不同。输出层用于接收与之连接的隐层的数据,并根据接收的数据输出预测结果。
在对地址文本处理装置进行预训练时,可以将预训练样本输入到地址文本处理装置中,并获取地址文本处理装置的输出数据,该输出数据可以理解为地址文本处理装置根据输入的预训练样本预测出的遮挡标识符处对应的地址词。根据输出数据与原始第一地址文本中被遮挡的地址词之间的差异调整地址文本处理装置中的各训练参数,从而使地址文本处理装置学习到较好的训练参数,完成对地址文本处理装置的预训练。
该训练参数包括但不限于有监督学习模型中的权重参数、偏置参数等常规训练参数。
步骤S104:对训练用第二地址文本的部分行政区划数据进行第二遮挡操作,根据第二遮挡结果生成目标任务训练样本。
第二地址文本是与目标任务对应的地址文本。如,目标任务为对地址文本中的行政区划进行补齐和统一,则第二地址文本为包含至少部分行政区划数据的地址文本。当然,针对不同的目标任务采用第二地址文本可以不同。
第二遮挡操作可以与第一遮挡操作相同,也可以不同。在第二遮挡操作与第一遮挡操作相同,均为替换操作时,其可以使用与第一遮挡操作相同的遮挡标识符,也可以使用与第一遮挡操作不同的遮挡标识符。
在本实施例中,第二遮挡操作使用的遮挡标识符与第一遮挡操作使用的遮挡标识符相同,这样有助于充分利用在预训练过程中地址文本处理装置学习到的训练参数,使得后续针对目标任务进行训练时的训练效果更好。
在第二遮挡操作与第一遮挡操作不同时,第二遮挡操作可以是删除操作。如,第二地址文本为“北京市海淀区中关村街道56号”,将其中的部分行政区划数据如“海淀区”进行第二遮挡操作后,第二遮挡结果可以为“北京市中关村街道56号”。根据第二遮挡结果可以生成对应的目标任务训练样本。
步骤S106:使用目标任务训练样本对经过预训练的所述地址文本处理装置进行目标训练,以通过训练的地址文本处理装置生成标准行政区划信息。
其中,在所述目标训练过程中,所述地址文本处理装置中的前N个隐层的训练参数保持通过所述预训练获得的参数不变,对所述地址文本处理装置中的其他隐层的训练参数进行训练,N为大于或等于1的正整数。
其中,N在具体应用中可以由本领域技术人员根据实际需求适当设置。例如,设地址文本处理装置包括10个隐层,则在所述目标训练过程中,可以将前8个隐层的训练参数确定为预训练获取的参数,并保持前8个隐层的训练参数不变,使用目标任务训练样本对最后2个隐层的训练参数进行训练。
当然,根据预训练时使用的预训练样本与目标任务训练样本之间的差异大小,可以适当调整保持训练参数不变的隐层的数量。如,两者差异越小,保持训练参数不变的隐层的数量可以越多,反之,则保持训练参数不变的隐层的数量可以越少。
由于已经通过预训练样本对地址文本处理装置进行了预训练,使得地址文本处理装置已经学习到了针对通用地址文本具有较好处理效果的训练参数,因此可以在针对目标任务进行训练时,使用部分预训练获得的参数,从而减少目标任务进行训练所需的目标任务训练样本数量和训练所需时间,提升训练效率,降低训练成本,且保证具有较好的训练效果。
此外,当目标任务发生变化时,例如,目标任务由对行政区划信息进行补全和表述格式统一变为其他任务,则可以根据新的目标任务选择适当的新的目标任务训练样本,使用新的目标任务训练样本进行训练,从而快速获得满足需求的地址文本处理装置,这样可以减少目标任务发生变化时的训练成本,提升训练效率。
采用训练后的地址文本处理装置可以对地址文本进行处理,准确地确定出地址文本中缺少的标准行政区划信息,并可以将地址文本中存在但不符合标准表述格式的行政区划数据转化为标准行政区划信息,实现了良好的地址文本处理效果,为后续使用该地址文本打下了良好基础。
在本实施例中,通过对第一地址文本进行第一遮挡操作获得对地址文本处理装置进行预训练的预训练样本,进而对地址文本处理装置进行预训练。这样在保证地址文本处理装置可以学习到较好的训练参数的情况下,降低预训练样本获取的难度。在目标训练过程中,使用与目标任务对应的第二地址文本,对其进行第二遮挡操作,并根据第二遮挡结果生成目标任务训练样本,使用目标任务训练样本对地址文本处理装置进行训练时,只对地址文本处理装置中除前N个隐层之外的隐层的训练参数进行训练,提升了训练效率,且可以使用少量的目标任务训练样本就可以实现较好的训练效果,降低了目标任务训练的难度。使用训练的地址文本处理装置可以补全地址文本中缺失的行政区划数据,并对其中已有的行政区划数据进行标准化,解决了现有技术中的标准化处理方式存在的需要预制较为复杂的匹配规则,导致匹配规则维护不易、需要较多人工干预的问题,提升了处理效率。
本实施例的地址文本处理方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如平板电脑、手机等)和PC机等。
实施例四
首先,再次参照图3A的地址文本处理方法,其包括:步骤S10:使用遮挡标识符对待处理的地址文本进行行政区划信息补齐,生成补齐后的地址文本。步骤S20:将所述补齐后的地址文本输入到上述的地址文本处理装置中,通过所述地址文本处理装置对所述补齐后的地址文本进行处理。步骤S30:获取所述地址文本处理装置输出的标准地址文本,其中,所述标准地址文本中,所述遮挡标识符所标识的文本被替换为标准行政区划信息。
与实施三不同的是,本实施例中以一个具体地址文本处理装置为示例,对实施例三中使用地址文本装置进行进一步说明。其中,本实施例的地址文本处理装置示例为一个双向语言模型,具体说明如下。
再次参见图1,示出了该双向语言模型的结构图。所述双向语言模型包括多个并列的处理单元,各所述处理单元均包括实施例一中所述的输入层101中的一个输入节点1011、隐层中处于一列的多个隐层节点1031和输出层105中的一个输出节点1051。
双向语言模型中的处理单元的个数根据预训练样本和目标任务训练样本中的最大地址词数确定。地址词指第一地址文本和第二地址文本中包含地址信息的词,根据需求不同可以采用不同的地址词切分方式从第一地址文本和第二地址文本中切分出地址词。例如,第一地址文本为“北京市海淀区中关村东路56号”,其切分出的地址词分别为“北京市”、“海淀区”、“中关村东路”和“56号”。
针对每个处理单元,所述输入层与多个处理单元中的隐层均连接,所述输出层与所在的处理单元中的隐层连接。为了使双向语言模型能够正确地输出各级标准行政区划信息,所述双向语言模型的前M个处理单元的输出层用于输出标准行政区划信息,M为大于1的正整数。
例如,前M个处理单元的输出层中设置有分类器,以利用分类器对地址文本进行分类,确定其对应的标准行政区划信息。M的具体取值可以根据需要确定,例如,针对需要输出4级行政区划的地址文本,M的取值为4。第1个处理单元用于输出省级标准行政区划信息,第2个处理单元用于输出市级标准行政区划信息,第3个处理单元用于输出区级行政区划信息,第4个处理单元用于输出镇级标准行政区划信息。
可选地,为了提升双向语言模型对地址文本中的深层语义特征的学习效果,各处理单元包括的隐层的神经元采用的结构可以为Transformer模型的结构。该Transformer模型的结构如图2所示,包括多个依次连接的编码器,各编码器包括多头注意力层1031a和前馈神经网络层1031b。数据在输入Transformer模型后,经过多头注意力层(Multi-headattention)进行处理后,进行求和和归一化处理(add&norm),之后进入前馈神经网络层(feed forword)进行处理,在对前馈神经网络层处理后的数据进行求和和归一化处理(add&norm)并得到编码器的输出数据。
当然,本领域技术人员可以根据需要采用其他模型结构实现各处理单元中隐层的神经元,本实施例对此不作限定。
基于前述的双向语言模型的训练方法包括以下步骤:
步骤S202:对第一地址文本的至少部分地址词进行第一遮挡操作,根据第一遮挡结果生成预训练样本,并使用所述预训练样本对用于进行地址文本处理的双向语言模型进行预训练。
如实施例一中所述,第一地址文本可以是通用地址文本,其可以包括行政区划数据,也可以不包括行政区划数据。根据第一地址文本生成预训练样本的过程可以与实施例一中所述过程相同,故在此不再赘述。
对双向语言模型进行预训练的过程包括以下步骤:
步骤A:根据预训练样本中各地址词及其在第一地址文本中的位置信息生成各地址词对应的第一预训练词向量,根据遮挡标识符及其在第一地址文本中的位置信息生成遮挡标识符对应的第二预训练词向量。
例如,第一地址文本为“北京市海淀区中关村街道56号”,其对应的第一遮挡结果为“北京市[mask]中关村街道56号”,对应的预训练样本中的地址词为“北京市”、“[mask]”、“中关村街道”和“56号”。根据各地址词采用词向量算法(如Word embedding算法)计算各地址词对应的语义词向量,再根据各地址词在第一地址文本中的位置信息确定各地址词对应的位置词向量,将各地址词的语义词向量和位置词向量进行拼接得到各地址词对应的第一预训练词向量。
生成第二预训练词向量的过程与生成第一预训练词向量的过程相同,故在此不再赘述。
对于地址词数少于双向语言模型的处理单元列数的第一地址文本可以使用占位字符等将第一地址文本的地址词数处理为与处理单元列数相同。
步骤B:将各第一预训练词向量或第二预训练词向量分别输入到不同的处理单元的输入层中,通过不同的处理单元的输入层将各第一预训练词向量或第二预训练词向量分发至各处理单元的隐层和输出层,以使各个处理单元均对所述第一预训练词向量和所述第二预训练词向量进行处理。
如图1所示,将各第一预训练词向量(图1中E1、E3~En)一一对应地输入到第1个、第3个到第n个处理单元的输入层。将第二预训练词向量(图1中E2)输入到第2个处理单元的输入层中。
通过各输入层,将各第一预训练词向量和第二预训练词向量分发到各隐层中,由隐层中的神经元对其进行处理,处理结果输入到与隐层连接的输出层中,由输出层输出预测地址词。
步骤C:以第一地址文本中被遮挡的地址词作为标注数据,根据所述标注数据和预测地址词的差异,调整双向语言模型中的训练参数。
例如,根据标注数据、预设的损失函数和预测地址词进行计算,以确定所述标注数据和预测地址词的差异,根据该差异调整双向语言模型中的训练参数。
步骤D:返回步骤A,对调整训练参数后的双向语言模型继续进行训练,直至满足预训练终止条件。
预训练终止条件可以根据需要设定,例如,训练次数到达预设次数或所述标注数据和预测地址词的差异小于预设差异值等。
步骤S204:对第二地址文本的部分行政区划数据进行第二遮挡操作,根据第二遮挡结果生成目标任务训练样本。
所述步骤S204包括以下子步骤:
子步骤S2041:使用遮挡标识符替换所述第二地址文本中指示行政区划数据的地址词中的部分地址词。
如实施例一中所述,在第二遮挡操作中使用的遮挡标识符可以与第一遮挡操作中使用的遮挡标识符相同,也可以不同。
本实施例中,以与第一遮挡操作使用的遮挡标识符相同的标识符,如“[mask]”为例。进行第二遮挡操作时,将第二地址文本中指示行政区划数据的部分地址词替换为该遮挡标识符。如第二地址文本为“北京市海淀区中关村东路24号星源国际”,将其中的地址词“北京市”替换为“[mask]”,则替换后的第二地址文本为“[mask]海淀区中关村东路24号星源国际”。
子步骤S2042:将替换有所述遮挡标识符的第二地址文本作为所述第二遮挡结果,并根据所述第二遮挡结果生成目标任务训练样本。
替换后的第二地址文本即为第二遮挡结果,根据该第二遮挡结果生成的目标任务训练样本时,可以通过对第二遮挡结果进行分词处理,获得第二遮挡结果中的各地址词,并根据这些地址词生成目标任务训练样本。如,第二遮挡结果为:“[mask]海淀区中关村东路24号星源国际”,生成的目标任务训练样本可以为“{{[mask]},{海淀区},{中关村东路},{24号},{星源国际}}”。
当然,在其他实施例中,可以采用其他任何适当的方式根据第二遮挡结果生成目标任务训练样本,本实施例对此不作限定。
步骤S206:使用目标任务训练样本对经过预训练的所述双向语言模型进行目标训练,以通过训练的双向语言模型生成标准行政区划信息。
其中,在所述目标训练过程中,所述双向语言模型中的前N个隐层的训练参数保持通过所述预训练获得的参数不变,对所述双向语言模型中的其他隐层的训练参数进行训练,N为大于或等于1的正整数。
设双向语言模型包括10个隐层,则在所述目标训练过程中,可以将前8个隐层的训练参数确定为预训练获取的参数,并保持前8个隐层的训练参数不变,使用目标任务训练样本对最后2个隐层的训练参数进行训练。
当然,根据预训练时使用的预训练样本与目标任务训练样本之间的差异大小,可以适当调整保持训练参数不变的隐层的数量。如,两者差异越小,保持训练参数不变的隐层的数量可以越多,反之,则保持训练参数不变的隐层的数量可以越少。
在进行目标训练过程中,其他隐层的训练参数可以随机初始化。
在一种可行方式中,所述步骤S206包括以下子步骤:
子步骤S2061:通过双向语言模型的输入节点,根据所述目标任务训练样本中的各地址词及对应的位置信息、遮挡标识符及对应的位置信息,生成与各所述地址词对应的第一输入词向量和与所述遮挡标识符对应的第二输入词向量。
例如,第二地址文本为“浙江省杭州余杭镇”,其对应的第二遮挡结果为“[mask]杭州余杭镇”,对应的目标任务训练样本中的地址词为“[mask]”、“杭州”和“余杭镇”。根据各地址词采用词向量算法(如Word embedding)计算各地址词对应的语义词向量,再根据各地址词在第二地址文本中的位置信息确定各地址词对应的位置词向量,将各地址词的语义词向量和位置词向量进行拼接得到各地址词对应的第一输入词向量。
生成第二输入词向量的过程与生成第一输入词向量的过程相同,故在此不再赘述。
对于地址词数少于双向语言模型的处理单元列数的第二地址文本可以使用占位字符等将第二地址文本的地址词数处理为与处理单元列数相同。
子步骤S2062:将输入节点生成的所述第一输入词向量或所述第二输入词向量分别输入不同的处理单元的隐层和输出层,以使各个处理单元均对所述第一输入词向量和所述第二输入词向量进行处理。
如图1所示,将第二输入词向量(图1中E1)输入到第1个处理单元的输入层。将各第一输入词向量(图1中E2~En)一一对应地输入到第2个到第n个处理单元的输入层。
通过所述不同的处理单元的输入层将对应的第一输入词向量或第二输入词向量分发至所述双向语言模型的各个处理单元的隐层。
如图1所示,针对双向语言模型中首层隐层中的神经元(记作神经元A),神经元A的输入数据为其对应的输入层获取的输入词向量和其他输入层分发的各第一输入词向量和/或第二输入词向量。
针对非首层且非最末层的隐层中的某个神经元(记作神经元B),神经元B的输入数据为前一隐层中各神经元的输出数据,神经元B的输出数据将输入到下一隐层的各神经元中。
针对最末层隐层中的神经元(记作神经元C),神经元C的输入数据是前一隐层中各神经元的输出数据,神经元C的输出数据输入到与之连接的输出层中。
隐层中的各神经元用于对输入的数据进行处理,以获取其对应的输入层获取的输入词向量与分发的各第一输入词向量和/或第二输入词向量之间的语义数据。
子步骤S2063:根据各个处理单元的处理结果,确定所述遮挡标识符对应的标准行政区划预测信息。
在一种可行方式中,所述子步骤S2063包括以下子步骤:
子步骤S2063a:获取接收所述第二输入词向量的输入节点所在的处理单元的处理结果。
接收所述第二输入词向量的输入层所在的处理单元可以理解为输入第二输入词向量的处理单元(记作处理单元A)。相应地,接收所述第二输入词向量的输入层所在的处理单元的处理结果即为处理单元A的最末层隐层输出的数据。
子步骤S2063b:将获取的所述处理结果输入到处理单元的输出节点的分类器中,并获取所述分类器的分类结果,根据所述分类结果和行政区划词典确定所述遮挡标识符对应的标准行政区划预测信息。
在本实施例中,输出层中包括分类器,获取的处理结果被输入到分类器中,由分类器进行分类并获得分类结果。分类器可以是二元分类器或多元分类器。例如,分类器为softmax分类器。
根据分类结果从预设的行政区划词典中确定所述遮挡标识符对应的标准行政区划预测信息。
其中,行政区划词典根据收集的地址库中的地址文本确定。行政区划词典中的各词典词为标准行政区划信息。这样可以保证在进行目标训练时双向语言模型输出的是标准行政区划信息,进而保证训练处的双向语言模型训练效果。
步骤S2064:根据所述标准行政区划预测信息和被遮挡的地址词对应的标准行政区划标注信息的差异,调整所述双向语言模型中除所述前N个隐层之外的其他隐层的训练参数。
获取标准行政区划预测信息后,根据标准行政区划预测信息、被遮挡的地址词对应的标准行政区划标注信息和预设的损失函数,确定标准行政区划预测信息、被遮挡的地址词对应的标准行政区划标注信息之间的差异,并根据该差异调整双向语言模型中除所述前N个隐层之外的其他隐层的训练参数。
其中,标准行政区划标注信息是根据第二地址文本中被遮挡的地址词对应的标准行政区划信息标注而确定的。例如,第二地址文本为“浙江省杭州余杭区”,其被遮挡地址词为“杭州”,则对应的标准行政区划标注信息为“杭州市”。
步骤S2065:返回步骤S2061继续执行,以对调整训练参数后的所述双向语言模型继续进行训练,直至满足训练终止条件。
在调整其他隐层的训练参数后,返回步骤S2061继续执行,以对调整训练参数后的所述双向语言模型继续进行训练。训练终止条件可以是训练次数满足预设的训练次数,或者,标准行政区划预测信息、被遮挡的地址词对应的标准行政区划标注信息之间的差异小于预设的差异值等。
在训练完成双向语言模型后,可以将地址文本输入到双向语言模型中,由双向语言模型对其进行处理,并输出行政区划数据补全且表述格式统一的包含标准行政区划信息的地址文本,由此实现对地址文本中的行政区划信息进行补全和统一的目的。
步骤S208:通过训练的双向语言模型对待处理的地址文本进行处理,并根据处理结果确定与所述待处理的地址文本对应的标准行政区划信息。
例如,若待处理的地址文本为“浙江省杭州东湖南路2号南苑街道”,其中的各地址词分别为“浙江省”、“杭州”、“东湖南路”、“2号”和“南苑街道”。
一种可选的通过训练的双向语言模型对该地址文本进行处理的过程包括以下步骤:
步骤E:使用占位字符将地址文本中的地址词数处理为与双向语言模型的处理单元的列数相同。
本领域技术人员可以根据需要,选用任何适当的字符作为占位字符,如“#”等,本实施例对此不作限定。
步骤F:根据各地址词及其位置信息生成对应的输入词向量。
需要说明的是,在本实施例中,为了便于描述将占位字符和地址文本中原始的地址词统称为地址词,生成输入词向量的方式可以与前述生成第一输入词向量的方式相同,故不再赘述。
步骤G:通过双向语言模型对各输入词向量进行处理,并根据处理结果确定标准行政区划信息。
将各输入词向量输入到双向语言模型的不同的处理单元中,以使各处理单元的隐层对输入的输入词向量进行处理。再将隐层的处理结果输入到与之连接的输出层,由于标准行政区划信息数量是有限的,因此可以通过输出层的分类器对各处理结果进行分类确定待处理的地址文本对应的标准行政区划信息,由此实现地址文本的行政区划补全和表述格式统一。
例如,对前述的待处理的地址文本进行处理后确定的标准行政区划信息包括:“浙江省”、“杭州市”和“余杭区”。其中,“杭州市”是对待处理的地址文本中地址词“杭州”的表述格式标准化,“余杭区”是对待处理的地址文本中缺少的行政区划的补全。
这样就可以利用双向语言模型,采用深度学习方式来学习地址文本的特征,从而自动化的判断其中的行政区划数据,并输出行政区划数据对应的标准行政区划信息,达到对行政区划数据自动补全和归一的效果。
通过本实施例,通过对第一地址文本进行第一遮挡操作获得对双向语言模型进行预训练的预训练样本,进而对双向语言模型进行预训练。这样在保证双向语言模型可以学习到较好的训练参数的情况下,降低预训练样本获取的难度。在目标训练过程中,使用与目标任务对应的第二地址文本,对其进行第二遮挡操作,并根据第二遮挡结果生成目标任务训练样本,使用目标任务训练样本对双向语言模型进行训练时,只对双向语言模型中除前N个隐层之外的隐层的训练参数进行训练,提升了训练效率,且可以使用少量的目标任务训练样本就可以实现较好的训练效果,降低了目标任务训练的难度。使用训练的双向语言模型可以补全地址文本中缺失的行政区划数据,并对其中已有的行政区划数据进行标准化,解决了现有技术中的标准化处理方式存在的需要预制较为复杂的匹配规则,导致匹配规则维护不易、需要较多人工干预的问题,提升了处理效率。
此外,本实施例的地址文本处理方法相较于查表补全行政区划的方式和和采用浅层RNN结构的文本编码做行政区划预测和归一的方式,其具有不需要制定复杂的匹配规则,减少了人工干预的优点,且预训练样本更容易获得和修改,当目标任务有变化时可以使用较少的目标任务训练样本对双向语言模型进行训练,从而得到新的满足目标任务需求的双向语言模型。另外,通过深层次的双向语言模型来提升模型对地址文本的上下文语义理解,这样在输出层对行政区划做补齐和归一效果好于简单的浅层RNN模型,可以解决浅层RNN模型存在的其无法有效利用地址文本中的双向上下文信息,并且直接映射地址文本到一个向量,使得其在解码时容易被行文靠后的非行政区划部分影响行政区划部分的预测结果使得输出不稳定的问题。
本实施例的地址文本处理方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如平板电脑、手机等)和PC机等。
实施例五
参照图5,示出了根据本申请实施例五的一种地址文本处理设备的结构框图。
本实施例的地址文本处理设备包括:占位补齐模块502,用于使用遮挡标识符对待处理的地址文本进行行政区划补齐,生成补齐后的地址文本;处理模块504,用于将所述补齐后的地址文本输入到上述的地址文本处理装置中,通过所述地址文本处理装置对所述补齐后的地址文本进行处理;标准地址输出模块506,用于获取所述地址文本处理装置输出的标准地址文本,其中,所述标准地址文本中,所述遮挡标识符所标识的文本被替换为标准行政区划信息。
该地址文本处理设备能够对地址文本进行处理,针对行政区划信息不规范的地址文本,可以对其中已有的行政区划数据进行标准化;对于缺少行政区划信息的地址文本,可以补全地址文本中缺失的行政区划数据,从而实现对地址文本的标准化处理,方便后续使用地址文本。而且解决了现有技术中的地址文本标准化处理方式存在需要预制较为复杂的匹配规则,导致匹配规则维护不易、需要较多人工干预的问题,提升了处理效率。
实施例六
参照图6,示出了根据本申请实施例六的一种地址文本处理设备的结构示意图。
本实施例的地址文本处理设备包括:占位补齐模块602,用于使用遮挡标识符对待处理的地址文本进行行政区划补齐,生成补齐后的地址文本;处理模块604,用于将所述补齐后的地址文本输入到上述的地址文本处理装置中,通过所述地址文本处理装置对所述补齐后的地址文本进行处理;标准地址输出模块606,用于获取所述地址文本处理装置输出的标准地址文本,其中,所述标准地址文本中,所述遮挡标识符所标识的文本被替换为标准行政区划信息。
可选地,所述设备还包括:训练模块600,用于对所述地址文本处理装置进行标准区划训练。
可选地,所述训练模块600包括:第一遮挡模块6001,用于对训练用第一地址文本的至少部分地址词进行第一遮挡操作,根据第一遮挡结果生成预训练样本,并使用所述预训练样本对所述地址文本处理装置进行预训练;第二遮挡模块6002,用于对训练用第二地址文本的部分行政区划数据进行第二遮挡操作,根据第二遮挡结果生成目标任务训练样本;目标训练模块6003,用于使用目标任务训练样本对经过预训练的所述地址文本处理装置进行目标训练,以通过训练的地址文本处理装置生成标准行政区划信息;其中,在所述目标训练过程中,所述地址文本处理装置中的前N个隐层的训练参数保持通过所述预训练获得的参数不变,对所述地址文本处理装置中的其他隐层的训练参数进行训练,N为大于或等于1的正整数。
可选地,所述第二遮挡模块6002包括:第一替换模块,用于使用遮挡标识符替换所述第二地址文本中指示行政区划数据的地址词中的部分地址词;生成模块,用于将替换有所述遮挡标识符的第二地址文本作为所述第二遮挡结果,并根据所述第二遮挡结果生成目标任务训练样本。
可选地,第一遮挡模块6001还用于通过地址文本处理装置的输入节点,根据所述目标任务训练样本中的各地址词及对应的位置信息、遮挡标识符及对应的位置信息,生成与各所述地址词对应的第一输入词向量和与所述遮挡标识符对应的第二输入词向量;将所述输入节点生成的所述第一输入词向量或所述第二输入词向量分发至不同的处理单元的隐层和输出层,以使各个处理单元均对所述第一输入词向量和所述第二输入词向量进行处理;根据各个处理单元的处理结果,确定所述遮挡标识符对应的标准行政区划预测信息;根据所述标准行政区划预测信息和被遮挡的地址词对应的标准行政区划标注信息的差异,调整所述地址文本处理装置中除所述前N个隐层之外的其他隐层的训练参数;返回通过地址文本处理装置的输入节点,根据所述目标任务训练样本中的各地址词及对应的位置信息、遮挡标识符及对应的位置信息,生成与各所述地址词对应的第一输入词向量和与所述遮挡标识符对应的第二输入词向量的步骤继续执行,以对调整训练参数后的所述地址文本处理装置继续进行训练,直至满足训练终止条件。
可选地,目标训练模块6003还用于获取接收所述第二输入词向量的输入节点所在的处理单元的处理结果;将获取的所述处理结果输入到所在的处理单元的输出节点的分类器中,并获取所述分类器的分类结果,根据所述分类结果和行政区划词典确定所述遮挡标识符对应的标准行政区划预测信息。
可选地,所述待处理地址文本为接收输入法应用的调用,通过所述输入层接收所述输入法应用发送的待处理的地址文本,所述设备还包括:展示模块608,用于通过所述输出层向所述输入法应用输出转换的标准地址文本并通过所述输入法应用进行展示。
本实施例的地址文本处理设备用于实现前述多个方法实施例中相应的地址文本处理设备的方法,并具有相应方法实施例的有益效果,在此不再赘述。
实施例七
参照图7,示出了根据本申请实施例七的一种电子设备的结构示意图,本申请具体实施例并不对电子设备的具体实现做限定。
如图7所示,该电子设备可以包括:处理器(processor)702、通信接口(Communications Interface)704、存储器(memory)706、以及通信总线708。
其中:
处理器702、通信接口704、以及存储器706通过通信总线708完成相互间的通信。
通信接口704,用于与其他电子设备如终端设备或服务器进行通信。
处理器702,用于执行程序710,具体可以执行上述下载应用的方法实施例中的相关步骤。
具体地,程序710可以包括程序代码,该程序代码包括计算机操作指令。
处理器702可能是中央处理器CPU,或者是特定集成电路AS I C(ApplicationSpecific Integrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器706,用于存放程序710。存储器706可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序710具体可以用于使得处理器702执行以下操作:使用遮挡标识符对待处理的地址文本进行行政区划信息补齐,生成补齐后的地址文本;将所述补齐后的地址文本输入到地址文本处理装置中,通过所述地址文本处理装置对所述补齐后的地址文本进行处理;获取所述地址文本处理装置输出的标准地址文本,其中,所述标准地址文本中,所述遮挡标识符所标识的文本被替换为标准行政区划信息。
在一种可选的实施方式中,程序710还可以用于使得处理器702在所述使用遮挡标识符对待处理的地址文本进行行政区划信息补齐之前,对所述地址文本处理装置进行标准区划训练。
在一种可选的实施方式中,程序710还用于使得处理器702对训练用第一地址文本的至少部分地址词进行第一遮挡操作,根据第一遮挡结果生成预训练样本,并使用所述预训练样本对所述地址文本处理装置进行预训练;对训练用第二地址文本的部分行政区划数据进行第二遮挡操作,根据第二遮挡结果生成目标任务训练样本;使用目标任务训练样本对经过预训练的所述地址文本处理装置进行目标训练,以通过训练的地址文本处理装置生成标准行政区划信息;其中,在所述目标训练过程中,所述地址文本处理装置中的前N个隐层的训练参数保持通过所述预训练获得的参数不变,对所述地址文本处理装置中的其他隐层的训练参数进行训练,N为大于或等于1的正整数。
在一种可选的实施方式中,程序710还用于使得处理器702在使用遮挡标识符替换所述第二地址文本中指示行政区划数据的地址词中的部分地址词;将替换有所述遮挡标识符的第二地址文本作为所述第二遮挡结果,并根据所述第二遮挡结果生成目标任务训练样本。
在一种可选的实施方式中,程序710还用于使得处理器702在通过地址文本处理装置的输入节点,根据所述目标任务训练样本中的各地址词及对应的位置信息、遮挡标识符及对应的位置信息,生成与各所述地址词对应的第一输入词向量和与所述遮挡标识符对应的第二输入词向量;将所述输入节点生成的所述第一输入词向量或所述第二输入词向量分发至不同的处理单元的隐层和输出层,以使各个处理单元均对所述第一输入词向量和所述第二输入词向量进行处理;根据各个处理单元的处理结果,确定所述遮挡标识符对应的标准行政区划预测信息;根据所述标准行政区划预测信息和被遮挡的地址词对应的标准行政区划标注信息的差异,调整所述地址文本处理装置中除所述前N个隐层之外的其他隐层的训练参数;返回通过地址文本处理装置的输入节点,根据所述目标任务训练样本中的各地址词及对应的位置信息、遮挡标识符及对应的位置信息,生成与各所述地址词对应的第一输入词向量和与所述遮挡标识符对应的第二输入词向量的步骤继续执行,以对调整训练参数后的所述地址文本处理装置继续进行训练,直至满足训练终止条件。
在一种可选的实施方式中,程序710还用于使得处理器702在获取接收所述第二输入词向量的输入节点所在的处理单元的处理结果;将获取的所述处理结果输入到所在的处理单元的输出节点的分类器中,并获取所述分类器的分类结果,根据所述分类结果和行政区划词典确定所述遮挡标识符对应的标准行政区划预测信息。
在一种可选的实施方式中,所述待处理地址文本为接收输入法应用的调用,通过所述输入层接收所述输入法应用发送的待处理的地址文本,程序710还用于使得处理器702通过所述输出层向所述输入法应用输出转换的标准地址文本并通过所述输入法应用进行展示。
程序710中各步骤的具体实现可以参见上述地址文本处理方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
通过本实施例的电子设备,通过对第一地址文本进行第一遮挡操作获得对地址文本处理装置进行预训练的预训练样本,进而对地址文本处理装置进行预训练。这样在保证地址文本处理装置可以学习到较好的训练参数的情况下,降低预训练样本获取的难度。在目标训练过程中,使用与目标任务对应的第二地址文本,对其进行第二遮挡操作,并根据第二遮挡结果生成目标任务训练样本,使用目标任务训练样本对地址文本处理装置进行训练时,只对地址文本处理装置中除前N个隐层之外的隐层的训练参数进行训练,提升了训练效率,且可以使用少量的目标任务训练样本就可以实现较好的训练效果,降低了目标任务训练的难度。使用训练的地址文本处理装置可以补全地址文本中缺失的行政区划数据,并对其中已有的行政区划数据进行标准化,解决了现有技术中的标准化处理方式存在的需要预制较为复杂的匹配规则,导致匹配规则维护不易、需要较多人工干预的问题,提升了处理效率。
需要指出,根据实施的需要,可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本申请实施例的目的。
上述根据本申请实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的地址文本处理方法。此外,当通用计算机访问用于实现在此示出的地址文本处理方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的地址文本处理方法的专用计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请实施例的范围。
以上实施方式仅用于说明本申请实施例,而并非对本申请实施例的限制,有关技术领域的普通技术人员,在不脱离本申请实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本申请实施例的范畴,本申请实施例的专利保护范围应由权利要求限定。

Claims (16)

1.一种地址文本处理装置,其特征在于,包括:
输入层,所述输入层包括多个输入节点,所述输入层用于接收地址文本并对所述地址文本进行编码;
隐层,所述隐层包括多个层,每个层包括多个隐层节点,所述隐层与所述输入层通信连接,并对所述输入层输出的编码信息进行处理;
输出层,所述输出层与所述隐层通信连接,并依据所述隐层的输出得到处理后的地址文本;
其中,所述输入层和隐层之间为全向通信连接,以及相邻两个隐层的隐层节点之间为全向通信连接;所述隐层节点用于实现在对编码信息进行处理的过程中处理所述地址文本中包含的上下文信息。
2.根据权利要求1所述的装置,其特征在于,各所述隐层节点均包括:
多头自注意力层,所述多头自注意力层用于从所述输入层中与当前隐层节点对应的输入节点输出的编码信息和所述输入层中的其他输入节点输出的编码信息中提取上下文信息;
前馈网络层,所述前馈网络层用于接收并处理对应的多头自注意力层输出的所述上下文信息。
3.根据权利要求2所述的装置,其特征在于,各所述隐层节点还包括第一归一化层和/或第二归一化层;
所述第一归一化层通信连接于所述多头自注意力层和所述前馈网络层之间,对所述多头自注意力层输出的上下文信息进行归一化处理,并将归一化处理结果传输至所述前馈网络层;
所述第二归一化层通信连接于所述前馈网络层之后,对所述前馈网络层输出的数据进行归一化处理。
4.根据权利要求1所述的装置,其特征在于,所述输入层包括词向量编码层和位置信息编码层;
所述词向量编码层用于将地址文本中的词语编码处理为对应的词向量;
所述位置编码层用于根据所述词语在所述地址文本中的位置信息,将词向量编码处理为输入词向量,并将所述输入词向量作为所述编码信息输入到所述隐层。
5.根据权利要求4所述的装置,其特征在于,所述地址文本中的词语包括地址词和遮挡标识符,或者,所述地址文本中的词语包括地址词。
6.根据权利要求1所述的装置,其特征在于,所述输出层包括多个输出节点;
所述装置的前M个输出节点用于输出标准行政区划信息,其中,M为大于1的正整数。
7.根据权利要求1所述的装置,其特征在于,所述地址文本处理装置接收输入法应用的调用,通过所述输入层接收所述输入法应用发送的地址文本,并经所述输入层、所述隐层的处理,通过所述输出层向所述输入法应用输出转换的标准地址文本并通过所述输入法应用进行展示。
8.一种地址文本处理方法,其特征在于,包括:
使用遮挡标识符对待处理的地址文本进行行政区划信息补齐,生成补齐后的地址文本;
将所述补齐后的地址文本输入到权利要求1-7中任一项所述的地址文本处理装置中,通过所述地址文本处理装置对所述补齐后的地址文本进行处理;
获取所述地址文本处理装置输出的标准地址文本,其中,所述标准地址文本中,所述遮挡标识符所标识的文本被替换为标准行政区划信息。
9.根据权利要求8所述的方法,其特征在于,在所述使用遮挡标识符对待处理的地址文本进行行政区划信息补齐之前,所述方法还包括:
对所述地址文本处理装置进行标准区划训练。
10.根据权利要求9所述的方法,其特征在于,所述对所述地址文本处理装置进行标准区划训练,包括:
对训练用第一地址文本的至少部分地址词进行第一遮挡操作,根据第一遮挡结果生成预训练样本,并使用所述预训练样本对所述地址文本处理装置进行预训练;
对训练用第二地址文本的部分行政区划数据进行第二遮挡操作,根据第二遮挡结果生成目标任务训练样本;
使用目标任务训练样本对经过预训练的所述地址文本处理装置进行目标训练,以通过训练的地址文本处理装置生成标准行政区划信息;
其中,在所述目标训练过程中,所述地址文本处理装置中的前N个隐层的训练参数保持通过所述预训练获得的参数不变,对所述地址文本处理装置中的其他隐层的训练参数进行训练,N为大于或等于1的正整数。
11.根据权利要求10所述的方法,其特征在于,所述对所述地址文本处理装置进行标准区划训练,包括:
使用遮挡标识符替换所述第二地址文本中指示行政区划数据的地址词中的部分地址词;
将替换有所述遮挡标识符的第二地址文本作为所述第二遮挡结果,并根据所述第二遮挡结果生成目标任务训练样本。
12.根据权利要求10所述的方法,其特征在于,所述对所述地址文本处理装置进行标准区划训练包括:
通过地址文本处理装置的输入节点,根据所述目标任务训练样本中的各地址词及对应的位置信息、遮挡标识符及对应的位置信息,生成与各所述地址词对应的第一输入词向量和与所述遮挡标识符对应的第二输入词向量;
将所述输入节点生成的所述第一输入词向量或所述第二输入词向量分发至不同的处理单元的隐层和输出层,以使各个处理单元均对所述第一输入词向量和所述第二输入词向量进行处理;
根据各个处理单元的处理结果,确定所述遮挡标识符对应的标准行政区划预测信息;
根据所述标准行政区划预测信息和被遮挡的地址词对应的标准行政区划标注信息的差异,调整所述地址文本处理装置中除所述前N个隐层之外的其他隐层的训练参数;
返回通过地址文本处理装置的输入节点,根据所述目标任务训练样本中的各地址词及对应的位置信息、遮挡标识符及对应的位置信息,生成与各所述地址词对应的第一输入词向量和与所述遮挡标识符对应的第二输入词向量的步骤继续执行,以对调整训练参数后的所述地址文本处理装置继续进行训练,直至满足训练终止条件。
13.根据权利要求12所述的方法,其特征在于,所述对所述地址文本处理装置进行标准区划训练包括:
获取接收所述第二输入词向量的输入节点所在的处理单元的处理结果;
将获取的所述处理结果输入到所在的处理单元的输出节点的分类器中,并获取所述分类器的分类结果,根据所述分类结果和行政区划词典确定所述遮挡标识符对应的标准行政区划预测信息。
14.根据权利要求8所述的方法,其特征在于,所述待处理地址文本为接收输入法应用的调用,通过所述输入层接收所述输入法应用发送的待处理的地址文本,所述方法还包括:
通过所述输出层向所述输入法应用输出转换的标准地址文本并通过所述输入法应用进行展示。
15.一种地址文本处理设备,其特征在于,包括:
占位补齐模块,用于使用遮挡标识符对待处理的地址文本进行行政区划补齐,生成补齐后的地址文本;
处理模块,用于将所述补齐后的地址文本输入到权利要求1-7中任一项所述的地址文本处理装置中,通过所述地址文本处理装置对所述补齐后的地址文本进行处理;
标准地址输出模块,用于获取所述地址文本处理装置输出的标准地址文本,其中,所述标准地址文本中,所述遮挡标识符所标识的文本被替换为标准行政区划信息。
16.一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求8-14中任一所述的地址文本处理方法。
CN201911046400.5A 2019-10-30 2019-10-30 地址文本处理方法、装置、设备及计算机存储介质 Pending CN112749560A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911046400.5A CN112749560A (zh) 2019-10-30 2019-10-30 地址文本处理方法、装置、设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911046400.5A CN112749560A (zh) 2019-10-30 2019-10-30 地址文本处理方法、装置、设备及计算机存储介质

Publications (1)

Publication Number Publication Date
CN112749560A true CN112749560A (zh) 2021-05-04

Family

ID=75640688

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911046400.5A Pending CN112749560A (zh) 2019-10-30 2019-10-30 地址文本处理方法、装置、设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN112749560A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116579339A (zh) * 2023-07-12 2023-08-11 阿里巴巴(中国)有限公司 任务执行方法和优化任务执行方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100911762B1 (ko) * 2008-06-23 2009-08-11 (주)지디에스케이 주소표준화 시스템 및 방법
US20100138551A1 (en) * 2008-11-25 2010-06-03 Sumedh Degaonkar Systems and methods for applying transformations to ip addresses obtained by domain name service (dns)
US20190005439A1 (en) * 2017-06-29 2019-01-03 Amazon Technologies, Inc. Identification of inaccurate addresses for package deliveries
CN109684440A (zh) * 2018-12-13 2019-04-26 北京惠盈金科技术有限公司 基于层级标注的地址相似度度量方法
US20190179896A1 (en) * 2017-12-11 2019-06-13 Abbyy Development Llc Using autoencoders for training natural language text classifiers
CN109960795A (zh) * 2019-02-18 2019-07-02 平安科技(深圳)有限公司 一种地址信息标准化方法、装置、计算机设备及存储介质
CN110046352A (zh) * 2019-04-19 2019-07-23 无锡伽玛信息科技有限公司 地址标准化方法及装置
CN110197284A (zh) * 2019-04-30 2019-09-03 腾讯科技(深圳)有限公司 一种虚假地址识别方法、装置及设备
CN110222337A (zh) * 2019-05-28 2019-09-10 浙江邦盛科技有限公司 一种基于transformer和CRF的中文地址分词方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100911762B1 (ko) * 2008-06-23 2009-08-11 (주)지디에스케이 주소표준화 시스템 및 방법
US20100138551A1 (en) * 2008-11-25 2010-06-03 Sumedh Degaonkar Systems and methods for applying transformations to ip addresses obtained by domain name service (dns)
US20190005439A1 (en) * 2017-06-29 2019-01-03 Amazon Technologies, Inc. Identification of inaccurate addresses for package deliveries
US20190179896A1 (en) * 2017-12-11 2019-06-13 Abbyy Development Llc Using autoencoders for training natural language text classifiers
CN109684440A (zh) * 2018-12-13 2019-04-26 北京惠盈金科技术有限公司 基于层级标注的地址相似度度量方法
CN109960795A (zh) * 2019-02-18 2019-07-02 平安科技(深圳)有限公司 一种地址信息标准化方法、装置、计算机设备及存储介质
CN110046352A (zh) * 2019-04-19 2019-07-23 无锡伽玛信息科技有限公司 地址标准化方法及装置
CN110197284A (zh) * 2019-04-30 2019-09-03 腾讯科技(深圳)有限公司 一种虚假地址识别方法、装置及设备
CN110222337A (zh) * 2019-05-28 2019-09-10 浙江邦盛科技有限公司 一种基于transformer和CRF的中文地址分词方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
康昆;李明峰;周醉;蔡炜珩;: "基于空间语义的地理编码在智慧城市信息系统中的应用", 现代测绘, no. 03, 25 May 2018 (2018-05-25), pages 39 - 41 *
张文豪;卢山;程光;: "基于LSTM网络的中文地址分词法的设计与实现", 计算机应用研究, no. 12, 12 December 2017 (2017-12-12), pages 3652 - 3654 *
张文豪等: "基于LSTM网络的中文地址分词法的设计与实现", 计算机应用研究, 31 December 2018 (2018-12-31), pages 3652 - 3654 *
蒋文明;张雪英;李伯秋;: "基于条件随机场的中文地址要素识别方法", 计算机工程与应用, no. 13, 1 May 2010 (2010-05-01), pages 133 - 135 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116579339A (zh) * 2023-07-12 2023-08-11 阿里巴巴(中国)有限公司 任务执行方法和优化任务执行方法
CN116579339B (zh) * 2023-07-12 2023-11-14 阿里巴巴(中国)有限公司 任务执行方法和优化任务执行方法

Similar Documents

Publication Publication Date Title
CN108985066B (zh) 一种智能合约安全漏洞检测方法、装置、终端及存储介质
JP7346788B2 (ja) 音声認識モデルのトレーニング方法、装置、機器、および記憶媒体
CN109697451B (zh) 相似图像聚类方法及装置、存储介质、电子设备
CN113553864A (zh) 翻译模型的训练方法、装置、电子设备及存储介质
CN113792854A (zh) 一种模型训练及字库建立方法、装置、设备及存储介质
CN113792855A (zh) 一种模型训练及字库建立方法、装置、设备和存储介质
CN113792851B (zh) 字体生成模型训练方法、字库建立方法、装置及设备
CN113642583B (zh) 用于文本检测的深度学习模型训练方法及文本检测方法
CN116978011B (zh) 一种用于智能目标识别的图像语义通信方法及系统
CN112559885A (zh) 地图兴趣点的训练模型确定方法、装置及电子设备
EP4123595A2 (en) Method and apparatus of rectifying text image, training method and apparatus, electronic device, and medium
CN115329876A (zh) 一种设备故障处理方法、装置、计算机设备及存储介质
CN114022887B (zh) 文本识别模型训练及文本识别方法、装置、电子设备
CN115496970A (zh) 图像任务模型的训练方法、图像识别方法以及相关装置
CN112749560A (zh) 地址文本处理方法、装置、设备及计算机存储介质
CN117349424A (zh) 应用于语言模型的提示模板的处理方法、装置及电子设备
CN110502236B (zh) 基于多尺度特征解码的前端代码生成方法、系统及设备
CN116228923A (zh) 基于Geohash算法的热力图绘制方法与系统
CN113688232B (zh) 招标文本分类方法、装置、存储介质及终端
CN115099359A (zh) 基于人工智能的地址识别方法、装置、设备及存储介质
CN115186738A (zh) 模型训练方法、装置和存储介质
CN112749978A (zh) 检测方法、装置、设备、存储介质以及程序产品
CN112346737A (zh) 编程语言翻译模型的训练方法、装置、设备及存储介质
CN112947928A (zh) 代码评价的方法、装置、电子设备和存储介质
CN116778505B (zh) 一种汉字识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination