CN115129804A - 地址联想方法及其装置、设备、介质、产品 - Google Patents

地址联想方法及其装置、设备、介质、产品 Download PDF

Info

Publication number
CN115129804A
CN115129804A CN202210855109.8A CN202210855109A CN115129804A CN 115129804 A CN115129804 A CN 115129804A CN 202210855109 A CN202210855109 A CN 202210855109A CN 115129804 A CN115129804 A CN 115129804A
Authority
CN
China
Prior art keywords
address
text
similar
texts
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210855109.8A
Other languages
English (en)
Inventor
叶朝鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huanju Shidai Information Technology Co Ltd
Original Assignee
Guangzhou Huanju Shidai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huanju Shidai Information Technology Co Ltd filed Critical Guangzhou Huanju Shidai Information Technology Co Ltd
Priority to CN202210855109.8A priority Critical patent/CN115129804A/zh
Publication of CN115129804A publication Critical patent/CN115129804A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开一种地址联想方法及其装置、设备、介质、产品,所述方法包括:获取用户的地址查询信息,所述地址查询信息包括该用户的录入地址文本、历史地址文本,以及该录入地址文本所指向地区的地区标识;根据所述录入地址文本在所述地区标识相对应的地址库中召回多个相似地址文本;将每个相似地址文本与所述地址查询信息分别关联所述地区标识,输入预设的双塔模型计算其彼此的深层语义向量之间的相似度,获得各个相似地址文本相对应的相似度;根据所述相似度筛选出部分相似地址文本作为所述录入地址文本的联想地址文本。本申请能够兼容不同国家或地区,基于用户的录入地址文本准确获取联想地址文本。

Description

地址联想方法及其装置、设备、介质、产品
技术领域
本申请涉及电商信息处理技术领域,尤其涉及一种地址联想方法及其相应的装置、计算机设备、计算机可读存储介质,以及计算机程序产品。
背景技术
物流服务体系在电商领域中特别重要。物流服务是从接收顾客订单开始到将商品送到顾客手中为止所发生的所有服务活动,可使交易的产品或服务实现增值。其本质是更好地满足顾客需求,即保证顾客需要的商品在顾客要求的时间内准时送达,服务能达到顾客所要求的水平等。
在电商领域的物流服务平台中,物流服务根据用户提供的地址文本进行识别提取,并规整输出各个行政层级相对应的地名,以便协助实现商品的物流送达。
在本申请人所采用的方案中,曾通过对用户输入的地址和候选地址进行分词并计算编辑距离来实现基于用户地址生成联想地址,实践中,这种方案存在局限性,主要包括:
一、由于在进行地址联想时,基于匹配词表进行分词进行相似地址查找,对于不同国家或地区的多语种地址文本无法进行语义理解,因而不具有可扩展性,无法提供多语种场景下的地址联想。
二、基于分词的情况,由于分词结构相近,常存在多个地址文本的编辑距离相同的情况,导致所联想的地址准确率不高。
三、由于在分词的嵌入向量的基础上直接进行相似计算,而嵌入向量是浅层语义,浅层语义所能提供的信息有限,基于浅层语义进行相似计算时,所获得的准确率也不高。
由此可见,传统的地址联系方式存在地址联想准确率不高的不足,且不具有适应多语种的可扩展性,难以满足跨境电商场景的应用所需,亟待改进。
发明内容
本申请的首要目的在于解决上述问题至少之一而提供一种地址联想方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品。
为满足本申请的各个目的,本申请采用如下技术方案:
适应本申请的目的之一而提供的一种地址联想方法,包括:
获取用户的地址查询信息,所述地址查询信息包括该用户的录入地址文本、历史地址文本,以及该录入地址文本所指向地区的地区标识;
根据所述录入地址文本在所述地区标识相对应的地址库中召回多个相似地址文本;
将每个相似地址文本与所述地址查询信息分别关联所述地区标识,输入预设的双塔模型计算其彼此的深层语义向量之间的相似度,获得各个相似地址文本相对应的相似度;
根据所述相似度筛选出部分相似地址文本作为所述录入地址文本的联想地址文本。
可选的,将每个相似地址文本与所述地址查询信息分别关联所述地区标识,输入预设的双塔模型计算其彼此的深层语义向量之间的相似度,获得各个相似地址文本相对应的相似度,包括:
关联地区标识构造所述地址查询信息相对应的用户侧特征信息;
关联地区标识构造所述相似地址文本相对应的召回侧特征信息;
将用户侧特征信息和召回侧特征信息分别输入文本特征提取模型提取其各自相应的深层语义信息,获得两者相对应的深层语义向量;
计算两个深层语义向量的数据距离,获得数据距离矩阵;
对所述数据距离矩阵进行分类映射,获得其映射到预设的分类空间中的目标分类相对应的分类概率,作为所述用户侧特征信息和所述召回侧特征信息之间的相似度。
可选的,关联地区标识构造所述地址查询信息相对应的用户侧特征信息,包括:
分别将所述录入地址文本、历史地址文本及该两者结合所得的综合地址文本拼接所述地区标识构成用户侧地址表达式;
查询预设的词表,将各个用户侧地址表达式转换为相应的嵌入向量;
拼接各个用户侧地址表达式的嵌入向量,获得所述地址查询信息相对应的用户侧特征信息。
可选的,关联地区标识构造所述相似地址文本相对应的召回侧特征信息,包括:
根据所述地区标识相对应的行政区划信息,确定所述相似地址文本中的各个行政区划地名;
以多个预设拼接规则,将所述各个行政区划地名拼接为多个字符串,将每个字符串拼接所述地区标识构成召回侧地址表达式;
查询预设的词表,将各个召回侧地址表达式转换为相应的嵌入向量;
拼接各个召回侧地址表达式的嵌入向量,获得所述相似地址文本相对应的召回侧特征信息。
可选的,以多个预设拼接规则,将所述各个行政区划地名拼接为多个字符串,将每个字符串拼接所述地区标识构成召回侧地址表达式,包括:
顺序选取所述相似地址文本中的上下行政级别的部分行政区划地名,拼接出顺序字符串;
跨行政级别选取所述相似地址文本中的部分行政区划地名拼接出跳序字符串;
将所有顺序字符串与所有跳序字符串分别与所述地区标识相拼接,相应获得多个召回侧地址表达式。
可选的,将每个相似地址文本与所述地址查询信息分别关联所述地区标识,输入预设的双塔模型计算其彼此的深层语义向量之间的相似度,获得各个相似地址文本相对应的相似度的步骤之前,包括:
调用预设的数据集中的单个训练样本,所述训练样本中包括第一地址样本和第二地址样本,且设置有表征第一地址样本和第二地址样本是否相似相对应的监督标签;
分别关联地区标识对第一地址样本和第二地址样本进行词嵌入,获得其各自相应的第一特征信息和第二特征信息;
将所述第一特征信息和第二特征信息分别输入所述双塔模型中的两个支路,分别经携带多头注意力层的文本特征提取模型进行特征提取,获得其各自相应的第一深层语义向量和第二深层语义向量;
经线性层计算第一深层语义向量和第二深层语义向量之间的数据距离,获得数据距离矩阵;
经分类器对所述数据距离矩阵进行分类映射,获得其映射到预设分类空间中的各个分类相对应的分类结果;
根据所述监督标签计算所述分类结果的分类损失值,在该分类损失值未达到预设阈值时,对所述双塔模型实施梯度更新,并调用下一训练样本继续迭代训练,直到所述双塔模型达至收敛状态。
可选的,分别关联地区标识对第一地址样本和第二地址样本进行词嵌入,包括:
将第一地址样本中包括的多个地址文本分别与所述地区标识拼接后进行词嵌入,获得各个嵌入向量,将所有嵌入向量构造为第一特征信息;
根据第二地址样本仅有的单个地址文本中的行政区划地名构造多个字符串,使每个字符串包括所述单个地址文本中的两个以上的行政区划地名,将每个字符串分别与所述地区标识拼接后进行词嵌入,获得各个嵌入向量,将所有嵌入向量构造为第二特征信息。
适应本申请的目的之一而提供的一种地址联想装置,包括用户信息获取模块、地址召回查询模块、相似度计算模块,以及地址筛选处理模块,其中,所述用户信息获取模块,用于获取用户的地址查询信息,所述地址查询信息包括该用户的录入地址文本、历史地址文本,以及该录入地址文本所指向地区的地区标识;所述地址召回查询模块,用于根据所述录入地址文本在所述地区标识相对应的地址库中召回多个相似地址文本;所述相似度计算模块,用于将每个相似地址文本与所述地址查询信息分别关联所述地区标识,输入预设的双塔模型计算其彼此的深层语义向量之间的相似度,获得各个相似地址文本相对应的相似度;所述地址筛选处理模块,用于根据所述相似度筛选出部分相似地址文本作为所述录入地址文本的联想地址文本。
适应本申请的目的之一而提供的一种计算机设备,包括中央处理器和存储器,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的地址联想方法的步骤。
适应本申请的另一目的而提供的一种计算机可读存储介质,其以计算机可读指令的形式存储有依据所述的地址联想方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行该方法所包括的步骤。
适应本申请的另一目的而提供的一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现本申请任意一种实施例中所述方法的步骤。
相对于现有技术,本申请在为用户提交的录入地址文本进行地址联想时,将录入地址文本关联该用户的历史地址文本和地址相对应的地区标识构造一路输入,以利用该录入地址文本从地址库中召回的相似地址文本构造另一路输入,在两路输入的深层语义向量的基础上确定各个相似地址文本与该录入地址文本之间的相似度,最终根据相似度筛选出该录入地址文本相对应的联想地址文本,实现地址联想服务。在此过程中,由于联想地址文本是关联了地区标识以及用户的历史地址文本,基于深层语义确定相似度而获得的,因而可以获得更为精准的地址联想结果,并且能够在地区标识的帮助下,提升地址联想服务的可扩展性,使地址联想服务更具通用能力,可以提供多语种服务。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请的地址联想方法的一种实施例的流程示意图;
图2为本申请的地址联想方法所采用的示例性双塔模型的网络架构示意图;
图3为本申请实施例中确定相似地址文本与地址查询信息之间相似度的流程示意图;
图4为本申请实施例中构造用户侧特征信息的流程示意图;
图5为本申请实施例中构造召回侧特征信息的流程示意图;
图6为本申请实施例中训练双塔模型的流程示意图;
图7为本申请的地址联想装置的原理框图;
图8为本申请所采用的一种计算机设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他诸如个人计算机、平板电脑之类的通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(PersonalCommunications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件,本质上是具备个人计算机等效能力的电子设备,为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置,计算机程序存储于其存储器中,中央处理器将存储在外存中的程序调入内存中运行,执行程序中的指令,与输入输出设备交互,借此完成特定的功能。
需要指出的是,本申请所称的“服务器”这一概念,同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理,所述各服务器应是逻辑上的划分,在物理空间上,这些服务器既可以是互相独立但可通过接口调用的,也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通,而不应以此约束本申请的网络部署方式的实施方式。
本申请的一个或数个技术特征,除非明文指定,既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问,也可直接部署并运行于客户端来实施访问。
本申请中所引用或可能引用到的神经网络模型,除非明文指定,既可部署于远程服务器且在客户端实施远程调用,也可部署于设备能力胜任的客户端直接调用,某些实施例中,当其运行于客户端时,其相应的智能可通过迁移学习来获得,以便降低对客户端硬件运行资源的要求,避免过度占用客户端硬件运行资源。
本申请所涉及的各种数据,除非明文指定,既可远程存储于服务器,也可存储于本地终端设备,只要其适于被本申请的技术方案所调用即可。
本领域技术人员对此应当知晓:本申请的各种方法,虽然基于相同的概念而进行描述而使其彼此间呈现共通性,但是,除非特别说明,否则这些方法都是可以独立执行的。同理,对于本申请所揭示的各个实施例而言,均基于同一发明构思而提出,因此,对于相同表述的概念,以及尽管概念表述不同但仅是为了方便而适当变换的概念,应被等同理解。
本申请即将揭示的各个实施例,除非明文指出彼此之间的相互排斥关系,否则,各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例,只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通,本领域技术人员应当知晓。
本申请的一种地址联想方法,可被编程为计算机程序产品,部署于客户端或服务器中运行而实现,例如在本申请的电商平台应用场景中,一般部署在服务器中实施,藉此可以通过访问该计算机程序产品运行后开放的接口,通过图形用户界面与该计算机程序产品的进程进行人机交互而执行该方法。
请参阅图1,本申请的地址联想方法在其一种实施例中,包括如下步骤:
步骤S2100、获取用户的地址查询信息,所述地址查询信息包括该用户的录入地址文本、历史地址文本,以及该录入地址文本所指向地区的地区标识;
对于电商平台而言,地址联想服务可以应用于各种不同的具体业务场景中,例如,当商家用户需要根据消费者用户的订单向物流服务接口发送送达地址时,或反之物流服务接口接收该送达地址时;又如消费者用户在订单页面或者送货地址编辑页面输入其地址信息提交至服务器时,诸如此类,均可触发地址联想服务,通过地址联想服务预测出与用户提交的录入地址文本相似的联想地址文本。
不同变通实施例中,本申请所述的送达地址相对应的地址文本,可以由消费者用户在客户端设备访问电商平台的对应页面例如地址编辑页面或者订单编辑页面,在其中输入进行提交;也可由商家用户在客户端设备中访问某些专门页面,在其中提交其指定的某一个或多个目标地址相对应的地址文本,所有这些用于触发地址联想服务而期望获得联想地址文本的地址文本,均可视为本申请的录入地址文本。不难理解,根据不同的具体业务场景,本申请的录入地址文本的来源相应也不同,本领域技术人员对此均应知晓。
对于任意一个用户而言,其在电商平台中历史使用的地址文本,构成该用户的历史地址文本,用户的历史地址文本,可以是一个或多个,存储于用户的个人账户信息中,可直接调用。历史地址文本蕴含着相应用户的常用的地址信息,可以表征用户的常住地,通过对其进行数据挖掘,可以为用户的录入地址文本提供表征用户历史习惯的参考信息。
同理,对于电商平台中的每个用户来说,其送货地址通常是指向其所在国家或地区的一个具体地址,所述的国家或地区,通常可以根据该用户所访问的线上店铺当前所使用的网站版本来确定,或使用该用户所在的地理位置信息来确定,或者由该用户指定而确定,或者由提供所述线上店铺的网站版本的服务器所处的地理位置来确定,无论何种方式,均可获得所述录入地址文本所指向的送达地址所在的国家或地区的名称作为地区标识,例如“中国”、“USA”等。
对于所述用户而言,其提交了所述录入地址文本之后,部署了地址联想服务的服务器,可以进一步从用户的个人账户信息中调用其历史地址文本,以及确定出所述录入地址文本所指向地区相对应的地区标识,构成地址查询信息,以获得用户侧输入所输的全部数据。
步骤S2200、根据所述录入地址文本在所述地区标识相对应的地址库中召回多个相似地址文本;
为了方便提供所述录入地址文本相对应的相似地址文本,可以为各个国家或地区预设相对应的地址库,将每个地址库与所述国家或地区相应的地区标识相对应,例如,将所述地区标识存储为其相应的地址库的库名或文件名。
在所述的地址库中,根据其地区标识相对应的国家或地区的官方行政区划信息,存储在各个行政级别相对应的全量行政区划地名,例如,以中国为例,在其国家项之下,存储各个省的地名,在每个省之下,存储该省中各个县的地名,以此类推,直至所有行政区划地名均包含在其中。
一种实施例中,根据行政区划的层级特点,将各级行政区划地名之间的映射关系,存储为树状结构。由此,当需要基于一个录入地址文本召回相应的地址库中的相似地址文本时,可在对所述录入地址文本进行分词处理后,获得多个分词,根据各个分词精准查询或模糊查询出其中的各个行政级别可能的行政区划地名,然后,根据行政区划层级的关系,将这些行政区划地名进行有序拼接,从而获得多个地址文本,即可作为所述录入地址文本相对应的相似地址文本。
另一实施例中,可以先对所述地址库中的全部行政区划地名按照行政层级关系进行全量拼接,实现对相应的国家或地区的各种可能的地址的枚举,获得海量的枚举地址,然后,将录入地址文本与各个枚举地址进行模糊匹配,筛选出匹配程度较高的部分枚举地址作为相似地址文本。所述的模糊匹配,可以是基于录入地址文本与各个枚举地址各自的语义向量计算数据距离确定,也可以是基于分词级的规则匹配确定。
不难理解,以上所召回的相似地址文本,由于参考了官方行政区划信息而可作为符合相应的国家或地区的官方规定的标准地址,但是,由于所述相似地址文本是借助较为粗浅的方式例如通过模糊匹配来获得的,因而,其与所述录入地址文本之间的相似程度较不稳定,故需进一步优化各个相似地址文本与所述录入地址文本之间在事实上的匹配程度。
步骤S2300、将每个相似地址文本与所述地址查询信息分别关联所述地区标识,输入预设的双塔模型计算其彼此的深层语义向量之间的相似度,获得各个相似地址文本相对应的相似度;
为了确定所召回的各个相似地址文本与用户的录入地址文本之间在事实上的匹配程度,本申请预备一个双塔模型用于计算每个相似地址文本与所述地址查询信息之间的相似度。
所述双塔模型采用足量的训练样本预先训练达至收敛状态,使其适于根据给定的两路输入,其中一路是关联了相应的地区标识的地址查询信息,另一路是关联了同一所述的地区标识的一个所述的相似地址文本,根据两路输入分别提取其各自的深层语义信息获得相应的深层语义向量,然后在两个深层语义重见天日的基础上计算数据距离,再根据数据距离进行分类映射获得其映射到预设的目标分类相对应的分类概率,作为两路输入相对应的相似度,以该相似度衡量所述相似地址文本与所述地址查询信息之间在事实上的匹配程度。
由于双塔模型的两路输入均关联了相对应的地区标识,不难理解,所述双塔模型事先被训练为具备兼容多国家或地区的地址文本相似识别的能力,根据神经网络模型在训练和推理两阶段输入相对应的特点可知,在所述双塔模型的训练阶段,其各个训练样本中也会携带相应的地区标识。
请参阅图2所示,所述双塔模型的两个支路中,可以采用同一文本特征提取模型用于对各路输入提取深层语义信息,所述文本特征提取模型可以是任意以循环神经网络(RNN,Recurrent Neural Network)为基础的神经网络模型,例如长短时记忆网络(LSTM,Long Short-Time Memory)、Bert等均可,较佳的实施例中,所述文本特征提取模型可以是携带多头注意力层的基础模型,例如Bert,或者Transformer的编码器,诸如此类。另一实施例中,所述文本特征提取模型也可以单独采用多头注意力层实施。
如图2所示,两路输入经两个文本特征提取模型提取深层语义信息获得其相应的深层语义向量后,可经一线性层计算两个深层语义向量之间的数据距离,获得相应的数据距离矩阵,然后将该数据距离矩阵输入至分类器中,由分类器中的全连接层进行分类映射至输出层,由输出层计算出其映射到预设的分类空间中的各个分类相对应的分类概率,其中,在训练阶段视为正样本相对应的目标分类的分类概率,便可直接采用为两个深层语义向量之间的相似度。
将关联了地区标识的每个相似地址文本均与关联了地区标识的所述地址查询信息逐一计算出相似度,每个相似地址文本便可获得其相应独有的相似度,该相似度表征该相似地址文本与该地址查询信息中的录入地址文本之间在事实上的匹配程度。至此,便实现对各个相似地址文本与所述录入地址文本之间的匹配程度的确定。
步骤S2400、根据所述相似度筛选出部分相似地址文本作为所述录入地址文本的联想地址文本。
当各个相似地址文本均确定了其相似度之后,便可对其进行筛选,筛选出其中的部分相似地址文本作为所述录入地址文本相对应的联想地址文本,将这些联想地址文本返回给用户进行调用,完成地址联想服务。
筛选出联想地址文本的方式,一种实施例中,可以采用预设阈值对各个相似地址文本的相似度进行过滤,将其中相似度高于所述预设阈值的相似地址文本作为联想地址文本。所述预设阈值可以是经验阈值,可由本领域技术人员灵活设置。另一实施例中,可以先按照相似度对全部相似地址文本进行倒排序,然后,根据预设数量,选取排序靠前的若干个相似地址文本作为所述的联想地址文本。
服务器确定出与所述录入地址文本相对应的联想地址文本之后,便可将各个联想地址文本封装于通知消息中推送至用户所在的客户端设备,根据当前正在执行的具体业务场景相对应的业务逻辑,展现和使用所述联想地址文本。例如,当处于由消费者用户编辑地址信息的业务场景中时,可以在其客户端设备列表式显示各个联想地址文本,提醒用户是否替换当前输入的录入地址文本。又如,当处于后台修正电商订单的送货地址的业务场景中时,可以将其中相似度最高的所述联想地址文本替换电商订单中原始的送货地址,并向操作用户所在的客户端设备中输出相应的通知信息以示提醒,在该通知消息中包含该联想地址文本。诸如此类,本领域技术人员可根据具体业务场景的不同,灵活利用所述联想地址文本,最终使其展示到客户端设备中被用户感知。
根据本申请的典型实施例及其变通实施例可以知晓,本申请在为用户提交的录入地址文本进行地址联想时,将录入地址文本关联该用户的历史地址文本和地址相对应的地区标识构造一路输入,以利用该录入地址文本从地址库中召回的相似地址文本构造另一路输入,在两路输入的深层语义向量的基础上确定各个相似地址文本与该录入地址文本之间的相似度,最终根据相似度筛选出该录入地址文本相对应的联想地址文本,实现地址联想服务。在此过程中,由于联想地址文本是关联了地区标识以及用户的历史地址文本,基于深层语义确定相似度而获得的,因而可以获得更为精准的地址联想结果,并且能够在地区标识的帮助下,提升地址联想服务的可扩展性,使地址联想服务更具通用能力,可以提供多语种服务。
在本申请任意实施例的基础上,将每个相似地址文本与所述地址查询信息分别关联所述地区标识,输入预设的双塔模型计算其彼此的深层语义向量之间的相似度,获得各个相似地址文本相对应的相似度,请参阅图3,包括:
步骤S2310、关联地区标识构造所述地址查询信息相对应的用户侧特征信息;
可以通过对所述地址查询信息提取特征,将其构造为双塔模型一个支路相对应的用户侧特征信息。如前所述,所述地址查询信息中包含了地区标识、录入地址文本,以及一个或多个历史地址文本,对此,可以分别将每个地址文本均前置植入地区标识获得相应的字符串,然后对所述字符串进行词嵌入获得相应的嵌入向量,再将各个嵌入向量拼接为相应的用户侧特征信息。
其中,可以基于所述录入地址文本及所述的历史地址文本之间的不同组织关系确定各个所述的字符串,例如,将地区标识与录入地址文本构造为第一字符串,将地区标识与所有历史地址文本构造为第二字符串,将地区标识与录入地址文本和所有历史地址文本构造为第三字符串。本实施例中,将所有历史地址文本作为一个整体与地区标识相关联,主要是考虑到历史地址文本作为一个参考信息,综合表征用户历史习惯,因而,适宜整体处理,从而可以突出所述录入地址文本的核心作用。
步骤S2320、关联地区标识构造所述相似地址文本相对应的召回侧特征信息;
对于双塔模型的另一支路的输入所需的单个相似地址文本,可以根据所述地区标识相对应的地址库中所蕴含的行政级别信息,确定出其中各个行政级别相对应的行政区划地名,也即提取出所述相似地址文本中的各个行政区划地名,在行政区划地名的粒度基础上构造相应的召回侧特征信息。
一种实施例中,将相似地址文本中的各个行政区划地名,按照行政层级的层级关系,分别构造顺序层级和跨层级相对应的字符串,所述顺序层级对应的字符串可以是一个或多个,同理,所述跨层级相对应的字符串也可以是一个或多个,且在所述字符串中前置植入相应的地区标识,然后对各个字符串做词嵌入,获得相应的嵌入向量,再将所有嵌入向量拼接为所述相似地址文本相对应的召回侧特征信息,完成一个相似地址文本相对应的召回侧特征信息的构造。
根据以上原理,以中国地址“广东省广州市番禺区南村镇”为例,根据实际需要,至少可以构造为如下字符串:
“中国广东省广州市”
“中国广州市番禺区”
“中国番禺区南村镇”
“中国广州市南村镇”
“中国广东省番禺区”
……
由以上的示例,不难看出,其中“中国”为地区标识,在构造相似地址文本相对应的召回侧特征信息时,以行政区划地名为基本单位,进行各个字符串的构造,可以获得相似地址文本的多种表达方式,对相似地址文本所可能的各种表达方式进行文本表征,为后续计算深层语义向量之间的数据距离提供各种可能的参考信息,使数据距离的计算更为精准。
步骤S2330、将用户侧特征信息和召回侧特征信息分别输入文本特征提取模型提取其各自相应的深层语义信息,获得两者相对应的深层语义向量;
当确定了所述的用户侧特征信息和所述的召回侧特征信息之后,便可在本申请所述的双塔模型的帮助下,通过两个支路中的文本特征提取模型分别提取深层语义信息,获得相应的深层语义向量,两个深层语义向量便相应承载了所述用户侧特征信息和所述召回侧特征信息相对应的深层语义特征,可以用于计算数据距离。
步骤S2340、计算两个深层语义向量的数据距离,获得数据距离矩阵;
计算所述两个深层语义数据距离时,可以借助一个线性层进行计算,计算数据距离所采用的算法,可以是余弦相似度算法、欧氏距离算法、皮尔逊相关系数、杰卡德系数等任意可用的数据距离算法中的任意一项。通过对两个深层语义向量计算数据距离,不难理解,可以获得一个数据距离矩阵。
步骤S2350、对所述数据距离矩阵进行分类映射,获得其映射到预设的分类空间中的目标分类相对应的分类概率,作为所述用户侧特征信息和所述召回侧特征信息之间的相似度。
根据本申请双塔模型的网络架构可知,所述数据距离矩阵被输入至分类器中,在分类器中经全连接层进行分类映射,将其映射到输出层,由输出层采用Softmax函数计算出其映射到预设的分类空间中的各个分类的分类概率。一种实施例中,所述分类空间包含设置两个分类,分别表征两个深层语义向量构成相似和不相似,将表征相似的分类作为目标分类,该目标分类相对应的分类概率,便可直接作为表征所述用户侧特征信息与所述召回侧特征信息的匹配程度的相似度。当然,其他实施例中,所述分类空间可以设置多于两个分类,只要在训练阶段确定其中一个分类作为目标分类,采用正样本相对应的监督标签监督训练过程即可,由此可以泛化双塔模型区分不同相似级别的能力,使目标分类相对应的分类概率更有代表性。
根据以上实施例,不难理解,通过关联地区标识构造地址查询信息相对应的用户侧特征信息和相似地址文本相对应的召回侧特征信息,为数据距离计算过程提供地区标识作为参考,可以将相似地址文本与地址查询信息之间的相似度的确定局限在相同国家或地区,既实现多国家或多地区间的相似度衡量,也能使确保相似度的计算更为准确。
在本申请任意实施例的基础上,关联地区标识构造所述地址查询信息相对应的用户侧特征信息,请参阅图4,包括:
步骤S2311、分别将所述录入地址文本、历史地址文本及该两者结合所得的综合地址文本拼接所述地区标识构成用户侧地址表达式;
本步骤首先将用户的地址查询信息中的全量历史地址文本作为一个整体,将录入地址文本作为一个整体,再将录入地址文本与全量历史地址文本结合所得的综合地址文本作为一个整体,将这三个整体分别前置拼接地区标识,获得三个字符串,作为用户侧地址表达式。
步骤S2312、查询预设的词表,将各个用户侧地址表达式转换为相应的嵌入向量;
本申请中,为了方便实现词嵌入,预备有一个词表,该词表包括每个地区标识相对应的国家或地区的各个行政区划地名与其相应的特征数值之间的映射关系数据,由此,当需要对所述的用户侧地址表达式进行词嵌入时,便可根据用户侧地址表达式中的各个分词查询所述的词表,获得其中各个分词,也即其中的各个行政区划地名相对应的特征数值,将这些特征数值按照分词顺序进行有序拼接,便获得所述用户侧地址表达式相对应的嵌入向量,实现词嵌入。采用这种方式的处理,不难理解,每个用户侧地址表达式均有一个相应的嵌入向量,实现对用户侧地址表达式的编码。
需要注意的是,所述的地区标识也可被理解为一个分词,可从所述的词表中获得其相应的特征数值。
步骤S2313、拼接各个用户侧地址表达式的嵌入向量,获得所述地址查询信息相对应的用户侧特征信息。
为了获得用户侧特征信息,按照一定的预设顺序,该顺序在双塔模型的训练阶段和推理阶段保持一致,根据该顺序将各个用户侧地址表达式的嵌入向量进行顺序拼接,获得单个拼接向量,该拼接向量即为用户侧特征信息。
根据以上实施例可知,用户侧特征信息中至少存在三个部分的信息,分别对录入地址文本、全量历史地址文本、由录入地址文本和全量历史地址文本结合而成的综合地址文本进行编码,获得三个以上的嵌入向量,其中全量历史地址文本中的各个历史地址文件被综合为单个嵌入向量,综合地址文本也被表示为单个嵌入向量,而录入地址文本也独占单个嵌入向量,由此,突出了录入地址文本的信息份量,弱化了单个的历史地址文本的参考信息份量,但却使全量历史地址文本的参考信息份量得到确保,合理分配了各个用户侧地址表达式的信息贡献价值,据此,在进行深层语义信息提取时,有望获得有效表示用户侧特征信息相对应的深层语义向量,以便确保后续计算相似度时结果更为精准。
在本申请任意实施例的基础上,关联地区标识构造所述相似地址文本相对应的召回侧特征信息,请参阅图5,包括:
步骤S2321、根据所述地区标识相对应的行政区划信息,确定所述相似地址文本中的各个行政区划地名;
如前所述,地区标识所指向的国家或地区,其行政区划信息蕴含于其地址库中,通过地址库中各个行政区划地名的上下层级关系进行表征。根据这种事实,针对给定的相似地址文本,一种实施例中,可以将所述地址库中各个行政区划地名在所述相似地址文本中进行精准查询和/或模糊查询,视查询结果是否命中所述相似地址文本,确定出命中相似地址文本的行政区划地名,由此,针对所述相似地址文本,可以确定出多个行政区划地名,这些行政区划地名是所述相似地址文本中的一部分,或者是与相似地址文本中的一部分语义相似的。
另一实施例中,可以先将所述相似地址文本进行分词,获得其相应的分词集,然后将该分词集中的各个分词与所述地址库中的各个行政区划地名计算语义相似度,然后筛选出与每个分词相似的行政区划地名。同理,也能获得与前一实施例相似的结果。
步骤S2322、以多个预设拼接规则,将所述各个行政区划地名拼接为多个字符串,将每个字符串拼接所述地区标识构成召回侧地址表达式;
为了获得召回侧地址表达式,可以预设多个拼接规则,例如,按照行政级别顺序关系拼接多个行政区划地名相对应的顺序拼接规则、按照行政级别跳序关系拼接多个行政区划地名相对应的跳序拼接规则等,按照这些不同拼接规则,对前一步骤所确定的行政区划地名进行相应的拼接,拼接后获得多个字符串,将这些字符串分别前置拼接地区标识,便可获得多个相应的召回侧表达式。
一个实施例中,可以按照如下具体过程进行处理,包括:
其一、顺序选取所述相似地址文本中的上下行政级别的部分行政区划地名,拼接出顺序字符串;
例如,对于相似地址文本所获得的行政区划地名的集合{广东省;广州市;黄埔区},应用顺序拼接规则时,可以获得两个字符串,即:
“广东省广州市”
“广州市黄埔区”
其中,广州市是广东省直接的下级行政区划,黄埔区是广州市直接的下级行政区划,每个字符串均遵守上下层级直接相连的关系,属于顺序字符串。
其二、跨行政级别选取所述相似地址文本中的部分行政区划地名拼接出跳序字符串;
例如,同前一步骤所示例,应用跳序拼接规则时,可以获得如下的字符串:
“广东省黄埔区”
不难看出,该字符串略过了广州市这是中间行政层级,实现跳行政级别组合两个行政区划地名,所获得的字符串便是跳序字符串。
其三、将所有顺序字符串与所有跳序字符串分别与所述地区标识相拼接,相应获得多个召回侧地址表达式。
为了提供地区标识,如前所述,将所有顺序字符串、所有跳序字符串,均分别前置植入相应的地区标识,例如“中国”,由此便相应获得各个召回侧地址表达式。
此处,不难理解,在构造召回侧地址表达式时,不仅针对顺序行政级别构造召回侧地址表达式,还针对跨行政级别构造相应的召回侧地址表达式,后者模拟了个别中间行政层级相对应的行政区划地名被漏掉的参考信息,更全面地展现了相似地址文本的各种可能的表达方式,为相似地址文本提取深层语义向量提供了更丰富的基础信息。
步骤S2323、查询预设的词表,将各个召回侧地址表达式转换为相应的嵌入向量;
所述的词表,即前文实施例中提及的词表,可用于对各个召回侧地址表达式进行词嵌入,具体是根据召回侧地址表达式中的各个行政区划名称查询词表获得其相应的特征数值,将这些特征数值按照召回侧地址表达式中的行政区划名称组织顺序进行组织,便可获得各个召回侧地址表达式相对应的嵌入向量。
步骤S2324、拼接各个召回侧地址表达式的嵌入向量,获得所述相似地址文本相对应的召回侧特征信息。
最后,如前所述,将所述各个召回侧地址表达式的嵌入向量,按照与双塔模型在训练阶段输入训练样本时一样的构造顺序,将这些嵌入向量顺序拼接,获得一个高维向量,即可作为所述相似地址文本相对应的召回侧特征信息。
根据以上实施例不难理解,本实施例中在构造相似地址文本相对应的召回侧特征信息的过程中,不仅针对相似地址文本顺序行政级别编码嵌入向量,也针对相似地址文本跨行政级别编码嵌入向量,全面模拟了相似地址文本的各种可能的输入表达方式,使召回侧特征信息所包含的浅层语义更为全面,后续在对召回侧特征信息提取深层语义时,可以确保所获得的深层语义向量更能精准全面地表示相应的相似地址文本,从而确保基于该深层语义向量获得的相似度更准确反映事实。
在本申请任意实施例的基础上,将每个相似地址文本与所述地址查询信息分别关联所述地区标识,输入预设的双塔模型计算其彼此的深层语义向量之间的相似度,获得各个相似地址文本相对应的相似度的步骤之前,请参阅图6,包括:
步骤S1100、调用预设的数据集中的单个训练样本,所述训练样本中包括第一地址样本和第二地址样本,且设置有表征第一地址样本和第二地址样本是否相似相对应的监督标签;
为了训练本申请的如图2所示的双塔模型,可以预备一个数据集,在所述数据集中存在足以将所述双塔模型训练至收敛程度的多个训练样本,每个训练样本关联对应的监督标签,以便对该双塔模型实施有监督训练,通过训练使双塔模型适于确定地址查询信息和一个相似地址文本之间的相似度。
所述训练样本,可以包括第一地址样本和第二地址样本,其中,第一地址样本对应本申请所述的地址查询信息而提供,第二地址样本对应本申请所述的相似地址文本所提供。
第一地址样本中,可以包含多个地址文本,其中一个优选地址文本被视为与推理阶段的录入地址文本相应,而其他的一个或多个其他地址文本被视为与本申请的所述全量历史地址文本相应,据此,后续可以对应推理阶段的编码原理对第一地址样本进行编码。
第二地址样本中,包含单个地址文本,该单个地址文本被视为与双塔模型的推理阶段中的一个相似地址文本相应,据此,后续可以对应推理阶段的编码原理对第二地址样本进行编码。
所述数据集或者所述的训练样本可以对应不同的国家或地址设置多个,以便使每个训练样本均可获得其相对应的地区标识,在后续编码过程中引用。一种实施例中,可以针对多个国家相对应的数据集或训练样本,集中训练所述的双塔模型,使该双塔模型具备适应不同国家的地址文本进行确定相似度的能力。
与训练样本相对应的监督标签,可以预先标注,根据第二地址样本是否与第一地址样本中的所述优选地址文本构成事实上的相似进行对应表示,例如,当监督标签为1时,表示两者相似,训练样本为正样本;当监督标签为0时,表示两者不相似,训练样本为负样本。
步骤S1200、分别关联地区标识对第一地址样本和第二地址样本进行词嵌入,获得其各自相应的第一特征信息和第二特征信息;
针对本步骤,一个实施例中,可以按照如下过程进行编码,包括:
步骤S1210、将第一地址样本中包括的多个地址文本分别与所述地区标识拼接后进行词嵌入,获得各个嵌入向量,将所有嵌入向量构造为第一特征信息;
根据神经网络模型在其训练阶段和推理阶段编码原理相对应的特点可知,第一地址样本由于与地址查询信息相应,故在对其进行词嵌入时,应按照本申请关于地址查询信息的编码过程进行相应的编码,例如,根据前文的一个实施例可知,将其中的优选地址文本作为录入地址文本,前置植入相应的地区标识之后构造一个嵌入向量;将其中的全部其他地址文本作为全量历史地址文本,前置植入相应的地区标识之后构造另一嵌入向量;将其中全部地址文本,包括所述优选地址文本和全部其他地址文件相结合作为综合地址文本,前置植入地区标识后构造再一嵌入向量,然后将基于第一地址样本所获得的各个嵌入向量作为各个第一向量有序拼接为高维向量,即可获得第一特征信息,该第一特征信息便与本申请前文所述的用户侧特征信息相应。
步骤S1220、根据第二地址样本仅有的单个地址文本中的行政区划地名构造多个字符串,使每个字符串包括所述单个地址文本中的两个以上的行政区划地名,将每个字符串分别与所述地区标识拼接后进行词嵌入,获得各个嵌入向量,将所有嵌入向量构造为第二特征信息。
同理,对于第二地址样本而言,由于其与本申请的相似地址文本相当,因而,其中一般仅提供一个相似地址文本,该相似地址文本为遵循所述地区标识相对应的行政区划信息编制的标准地址文本,因此可以参考预设的与所述地区标识相对应的地址库确定出其中的各个行政区划地名,然后,参照本申请前文各实施例关于构造召回侧特征信息的编码过程,顺承行政层级关系或者跨行政层级关系,选取其中部分行政区划地名进行拼接获得多个字符串,并且在各个字符串中前置植入地区标识,在此基础上再根据预设词表对各个字符串进行编码,获得各个字符串相对应的嵌入向量,将所有这些嵌入向量拼接在一起,便构成与召回侧特征信息相应的第二特征信息。
根据以上过程不难理解,在为双塔模型提供训练样本时,便对应线上推理所需,在构造第一特征信息时,针对被视为录入地址文本的优选地址文本、被视为历史地址文本的其他地址文本,便按照在线推理阶段相应的方式进行嵌入向量的对应编码,确定了优选地址文本和其他地址文本之间的信息份量关系;在构造第二特征信息时,针对一个被视为相似地址文本的第二地址样本,便已经利用其中的行政区划地名进行各种顺序的拼接而模拟出漏输个别行政区划名称的情况。根据这样的训练处理,在对双塔模型训练之后,可使双塔模型在线上推理时获得处理相应的特征信息的能力。
步骤S1300、将所述第一特征信息和第二特征信息分别输入所述双塔模型中的两个支路,分别经携带多头注意力层的文本特征提取模型进行特征提取,获得其各自相应的第一深层语义向量和第二深层语义向量;
与线上推理阶段同理,当针对一个训练样本获得其相应的第一特征信息和第二特征信息之后,便可将两者输入本申请的双塔模型的两个支路中,分别经其中的文本特征提取模型进行特征提取,从而获得两者相应的第一深层语义向量和第二深层语义向量,实现表示学习。
本实施例中,所述文本特征提取模型优选携带多头注意力层的文本特征提取模型,例如Transformer模型中的编码器,或者Bert模型等。作为替换实施例中,更为直接的实施例中,可采用单个多头注意力层作为文本特征提取模型,由此,输入其中的特征信息,经过多头注意力层提取出其中的关键特征作为相应的深层语义向量,这些深层语义向量包含了便于有效计算数据距离所需的关键特征。
步骤S1400、经线性层计算第一深层语义向量和第二深层语义向量之间的数据距离,获得数据距离矩阵;
为了计算第一深层语义向量和第二深层语义向量之间的数据距离,如前所述,双塔模型中采用一个线性层实现数据距离计算,而数据距离算法则可采用前文所述的任意一种算法实施,经过对两个深层语义向量计算数据距离后,便可获得一个数据距离矩阵。
步骤S1500、经分类器对所述数据距离矩阵进行分类映射,获得其映射到预设分类空间中的各个分类相对应的分类结果;
根据本申请的双塔模型的示例可知,在训练阶段,通过分类任务训练双塔模型提取深层语义信息的表示学习能力,因而,将所述数据距离矩阵输入分类器中进行分类映射,获得分类结果,分类结果中包含经分类映射到预设的分类空间的各个分类相对应的分类概率。
所述分类器可以是二分类器或者多分类器,相应的,其分类空间可以包括二个分类或多个分类,但是,其中只有一个分类被确定为目标分类,用于对应正样本,也即,当目标分类获得分类概率最大时,代表双塔模型将训练样本预测为正样本,而对于其他分类,无论是剩下单个分类还是多个分类,均视为预测出负样本。
步骤S1600、根据所述监督标签计算所述分类结果的分类损失值,在该分类损失值未达到预设阈值时,对所述双塔模型实施梯度更新,并调用下一训练样本继续迭代训练,直到所述双塔模型达至收敛状态。
在获得一个训练样本相对应的分类结果后,便可应用交叉熵损失函数,根据所述训练样本相对应的监督标签计算所述分类结果相对应的分类损失值,然后,利用一个用于判断双塔模型是否达到收敛状态的预设阈值对该分类损失值进行判断,当该分类损失值达到该预设阈值时,表征双塔模型已经达到收敛状态,可终止对双塔模型的训练任务。当该分类损失值未达到所述预设阈值时,则表征双塔模型未达到收敛状态,于是,根据该分类损失值对双塔模型实施梯度更新,通过反向传播修正双塔模型各个环节的权重参数,然后,从所述数据集中调用下一训练样本,继续对双塔模型实施迭代训练。以此类推,直至双塔模型被训练至收敛状态为止。
不难理解,当双塔模型经过以上的训练并达到收敛状态之后,便获得了根据给定的地址查询信息和相似地址文本确定两者之间的相似度的能力,其中,分类器的目标分类相对应的分类概率,由此经过构造分类器所采用的Softmax函数或者Sigmoid函数的归一化,统一了量纲,便可直接采用为所述相似度,由此,多个相似地址文本相对应的相似度,便可以直接进行比较。
根据以上实施例,不难理解,本申请通过针对双塔模型执行训练任务,在训练样本中,应线上推理所需而对应处理相应的训练样本,一方面使得一路输入能够按份参考多个地址文本进行特征表示确定相应的深层语义向量,另一方面使得另一路输入能够模拟出漏掉个别行政区划地名的地址文本进行特征表示确定相应的深层语义向量,然后根据两个深层语义向量计算数据距离,再根据数据距离分类确定两路输入的相似度,因而,经过训练,可以使双塔模型获得精准确定一个地址文本与另一个地址文本之间的相似度的能力,可用于实现本申请的地址联想服务,以便基于用户的录入地址文本准确预测出联想地址文本。
请参阅图7,适应本申请的目的之一而提供的一种地址联想装置,是对本申请的地址联想方法的功能化体现,该装置包括:用户信息获取模块2100、地址召回查询模块2200、相似度计算模块2300,以及地址筛选处理模块2400,其中,所述用户信息获取模块2100,用于获取用户的地址查询信息,所述地址查询信息包括该用户的录入地址文本、历史地址文本,以及该录入地址文本所指向地区的地区标识;所述地址召回查询模块2200,用于根据所述录入地址文本在所述地区标识相对应的地址库中召回多个相似地址文本;所述相似度计算模块2300,用于将每个相似地址文本与所述地址查询信息分别关联所述地区标识,输入预设的双塔模型计算其彼此的深层语义向量之间的相似度,获得各个相似地址文本相对应的相似度;所述地址筛选处理模块2400,用于根据所述相似度筛选出部分相似地址文本作为所述录入地址文本的联想地址文本。
在本申请任意实施例的基础上,所述相似度计算模块2300,包括:用户侧构造子模块,用于关联地区标识构造所述地址查询信息相对应的用户侧特征信息;召回侧构造子模块,用于关联地区标识构造所述相似地址文本相对应的召回侧特征信息;特征提取子模块,用于将用户侧特征信息和召回侧特征信息分别输入文本特征提取模型提取其各自相应的深层语义信息,获得两者相对应的深层语义向量;数据距离计算子模块,用于计算两个深层语义向量的数据距离,获得数据距离矩阵;分类映射子模块,用于对所述数据距离矩阵进行分类映射,获得其映射到预设的分类空间中的目标分类相对应的分类概率,作为所述用户侧特征信息和所述召回侧特征信息之间的相似度。
在本申请任意实施例的基础上,所述用户侧构造子模块,包括:用户侧文本拼接单元,用于分别将所述录入地址文本、历史地址文本及该两者结合所得的综合地址文本拼接所述地区标识构成用户侧地址表达式;用户侧嵌入处理单元,用于查询预设的词表,将各个用户侧地址表达式转换为相应的嵌入向量;用户侧特征构造单元,用于拼接各个用户侧地址表达式的嵌入向量,获得所述地址查询信息相对应的用户侧特征信息。
在本申请任意实施例的基础上,所述召回侧构造子模块,包括:地名解析单元,用于根据所述地区标识相对应的行政区划信息,确定所述相似地址文本中的各个行政区划地名;地名重构单元,用于以多个预设拼接规则,将所述各个行政区划地名拼接为多个字符串,将每个字符串拼接所述地区标识构成召回侧地址表达式;召回侧嵌入处理单元,用于查询预设的词表,将各个召回侧地址表达式转换为相应的嵌入向量;召回侧特征构造单元,用于拼接各个召回侧地址表达式的嵌入向量,获得所述相似地址文本相对应的召回侧特征信息。
在本申请任意实施例的基础上,所述地名重构单元,包括:顺序拼接子单元,用于顺序选取所述相似地址文本中的上下行政级别的部分行政区划地名,拼接出顺序字符串;跳序拼接子单元,用于跨行政级别选取所述相似地址文本中的部分行政区划地名拼接出跳序字符串;标识拼接子单元,用于将所有顺序字符串与所有跳序字符串分别与所述地区标识相拼接,相应获得多个召回侧地址表达式。
在本申请任意实施例的基础上,本申请的地址联想装置,还包括:样本调用模块,用于调用预设的数据集中的单个训练样本,所述训练样本中包括第一地址样本和第二地址样本,且设置有表征第一地址样本和第二地址样本是否相似相对应的监督标签;编码处理模块,用于分别关联地区标识对第一地址样本和第二地址样本进行词嵌入,获得其各自相应的第一特征信息和第二特征信息;特征提取模块,用于将所述第一特征信息和第二特征信息分别输入所述双塔模型中的两个支路,分别经携带多头注意力层的文本特征提取模型进行特征提取,获得其各自相应的第一深层语义向量和第二深层语义向量;距离计算模块,用于经线性层计算第一深层语义向量和第二深层语义向量之间的数据距离,获得数据距离矩阵;分类映射模块,用于经分类器对所述数据距离矩阵进行分类映射,获得其映射到预设分类空间中的各个分类相对应的分类结果;迭代决策模块,用于根据所述监督标签计算所述分类结果的分类损失值,在该分类损失值未达到预设阈值时,对所述双塔模型实施梯度更新,并调用下一训练样本继续迭代训练,直到所述双塔模型达至收敛状态。
在本申请任意实施例的基础上,所述编码处理模块,包括:第一编码模块,用于将第一地址样本中包括的多个地址文本分别与所述地区标识拼接后进行词嵌入,获得各个嵌入向量,将所有嵌入向量构造为第一特征信息;第二编码模块,用于根据第二地址样本仅有的单个地址文本中的行政区划地名构造多个字符串,使每个字符串包括所述单个地址文本中的两个以上的行政区划地名,将每个字符串分别与所述地区标识拼接后进行词嵌入,获得各个嵌入向量,将所有嵌入向量构造为第二特征信息。
为解决上述技术问题,本申请实施例还提供计算机设备。如图8所示,计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中,该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种地址联想方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行本申请的地址联想方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图7中的各个模块及其子模块的具体功能,存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请的地址联想装置中执行所有模块/子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
本申请还提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行本申请任一实施例的地址联想方法的步骤。
本申请还提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被一个或多个处理器执行时实现本申请任一实施例所述方法的步骤。
本领域普通技术人员可以理解实现本申请上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等计算机可读存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
综上所述,本申请的技术方案在提供地址联想服务时能够兼容不同国家或地区,基于用户的录入地址文本准确获取联想地址文本,方便用户高效录入送达地址或者对其自身输入的送达地址进行纠错,可以提升电商平台的用户服务体验。
本技术领域技术人员可以理解,本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种地址联想方法,其特征在于,包括:
获取用户的地址查询信息,所述地址查询信息包括该用户的录入地址文本、历史地址文本,以及该录入地址文本所指向地区的地区标识;
根据所述录入地址文本在所述地区标识相对应的地址库中召回多个相似地址文本;
将每个相似地址文本与所述地址查询信息分别关联所述地区标识,输入预设的双塔模型计算其彼此的深层语义向量之间的相似度,获得各个相似地址文本相对应的相似度;
根据所述相似度筛选出部分相似地址文本作为所述录入地址文本的联想地址文本。
2.根据权利要求1所述的地址联想方法,其特征在于,将每个相似地址文本与所述地址查询信息分别关联所述地区标识,输入预设的双塔模型计算其彼此的深层语义向量之间的相似度,获得各个相似地址文本相对应的相似度,包括:
关联地区标识构造所述地址查询信息相对应的用户侧特征信息;
关联地区标识构造所述相似地址文本相对应的召回侧特征信息;
将用户侧特征信息和召回侧特征信息分别输入文本特征提取模型提取其各自相应的深层语义信息,获得两者相对应的深层语义向量;
计算两个深层语义向量的数据距离,获得数据距离矩阵;
对所述数据距离矩阵进行分类映射,获得其映射到预设的分类空间中的目标分类相对应的分类概率,作为所述用户侧特征信息和所述召回侧特征信息之间的相似度。
3.根据权利要求2所述的地址联想方法,其特征在于,关联地区标识构造所述地址查询信息相对应的用户侧特征信息,包括:
分别将所述录入地址文本、历史地址文本及该两者结合所得的综合地址文本拼接所述地区标识构成用户侧地址表达式;
查询预设的词表,将各个用户侧地址表达式转换为相应的嵌入向量;
拼接各个用户侧地址表达式的嵌入向量,获得所述地址查询信息相对应的用户侧特征信息。
4.根据权利要求2所述的地址联想方法,其特征在于,关联地区标识构造所述相似地址文本相对应的召回侧特征信息,包括:
根据所述地区标识相对应的行政区划信息,确定所述相似地址文本中的各个行政区划地名;
以多个预设拼接规则,将所述各个行政区划地名拼接为多个字符串,将每个字符串拼接所述地区标识构成召回侧地址表达式;
查询预设的词表,将各个召回侧地址表达式转换为相应的嵌入向量;
拼接各个召回侧地址表达式的嵌入向量,获得所述相似地址文本相对应的召回侧特征信息。
5.根据权利要求4所述的地址联想方法,其特征在于,以多个预设拼接规则,将所述各个行政区划地名拼接为多个字符串,将每个字符串拼接所述地区标识构成召回侧地址表达式,包括:
顺序选取所述相似地址文本中的上下行政级别的部分行政区划地名,拼接出顺序字符串;
跨行政级别选取所述相似地址文本中的部分行政区划地名拼接出跳序字符串;
将所有顺序字符串与所有跳序字符串分别与所述地区标识相拼接,相应获得多个召回侧地址表达式。
6.根据权利要求1至5中任意一项所述的地址联想方法,其特征在于,将每个相似地址文本与所述地址查询信息分别关联所述地区标识,输入预设的双塔模型计算其彼此的深层语义向量之间的相似度,获得各个相似地址文本相对应的相似度的步骤之前,包括:
调用预设的数据集中的单个训练样本,所述训练样本中包括第一地址样本和第二地址样本,且设置有表征第一地址样本和第二地址样本是否相似相对应的监督标签;
分别关联地区标识对第一地址样本和第二地址样本进行词嵌入,获得其各自相应的第一特征信息和第二特征信息;
将所述第一特征信息和第二特征信息分别输入所述双塔模型中的两个支路,分别经携带多头注意力层的文本特征提取模型进行特征提取,获得其各自相应的第一深层语义向量和第二深层语义向量;
经线性层计算第一深层语义向量和第二深层语义向量之间的数据距离,获得数据距离矩阵;
经分类器对所述数据距离矩阵进行分类映射,获得其映射到预设分类空间中的各个分类相对应的分类结果;
根据所述监督标签计算所述分类结果的分类损失值,在该分类损失值未达到预设阈值时,对所述双塔模型实施梯度更新,并调用下一训练样本继续迭代训练,直到所述双塔模型达至收敛状态。
7.根据权利要求6中所述的地址联想方法,其特征在于,分别关联地区标识对第一地址样本和第二地址样本进行词嵌入,包括:
将第一地址样本中包括的多个地址文本分别与所述地区标识拼接后进行词嵌入,获得各个嵌入向量,将所有嵌入向量构造为第一特征信息;
根据第二地址样本仅有的单个地址文本中的行政区划地名构造多个字符串,使每个字符串包括所述单个地址文本中的两个以上的行政区划地名,将每个字符串分别与所述地区标识拼接后进行词嵌入,获得各个嵌入向量,将所有嵌入向量构造为第二特征信息。
8.一种地址联想装置,其特征在于,包括:
用户信息获取模块,用于获取用户的地址查询信息,所述地址查询信息包括该用户的录入地址文本、历史地址文本,以及该录入地址文本所指向地区的地区标识;
地址召回查询模块,用于根据所述录入地址文本在所述地区标识相对应的地址库中召回多个相似地址文本;
相似度计算模块,用于将每个相似地址文本与所述地址查询信息分别关联所述地区标识,输入预设的双塔模型计算其彼此的深层语义向量之间的相似度,获得各个相似地址文本相对应的相似度;
地址筛选处理模块,用于根据所述相似度筛选出部分相似地址文本作为所述录入地址文本的联想地址文本。
9.一种计算机设备,包括中央处理器和存储器,其特征在于,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,其以计算机可读指令的形式存储有依据权利要求1至7中任意一项所述的方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行相应的方法所包括的步骤。
CN202210855109.8A 2022-07-19 2022-07-19 地址联想方法及其装置、设备、介质、产品 Pending CN115129804A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210855109.8A CN115129804A (zh) 2022-07-19 2022-07-19 地址联想方法及其装置、设备、介质、产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210855109.8A CN115129804A (zh) 2022-07-19 2022-07-19 地址联想方法及其装置、设备、介质、产品

Publications (1)

Publication Number Publication Date
CN115129804A true CN115129804A (zh) 2022-09-30

Family

ID=83383292

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210855109.8A Pending CN115129804A (zh) 2022-07-19 2022-07-19 地址联想方法及其装置、设备、介质、产品

Country Status (1)

Country Link
CN (1) CN115129804A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117312478A (zh) * 2023-11-30 2023-12-29 中国科学院空天信息创新研究院 地址定位方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117312478A (zh) * 2023-11-30 2023-12-29 中国科学院空天信息创新研究院 地址定位方法、装置、电子设备及存储介质
CN117312478B (zh) * 2023-11-30 2024-03-22 中国科学院空天信息创新研究院 地址定位方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN111581229B (zh) Sql语句的生成方法、装置、计算机设备及存储介质
CN112949320B (zh) 基于条件随机场的序列标注方法、装置、设备及介质
CN115545832A (zh) 商品搜索推荐方法及其装置、设备、介质
CN111143534A (zh) 基于人工智能的品牌名的提取方法、装置及存储介质
CN114840869A (zh) 基于敏感度识别模型的数据敏感度识别方法及装置
CN115018549A (zh) 广告文案生成方法及其装置、设备、介质、产品
CN112906361A (zh) 文本数据的标注方法和装置、电子设备和存储介质
CN113806537A (zh) 商品类目分类方法及其装置、设备、介质、产品
CN114218426A (zh) 音乐视频推荐方法及其装置、设备、介质、产品
CN114428845A (zh) 智能客服自动应答方法及其装置、设备、介质、产品
CN113689233A (zh) 广告投放选品方法及其相应的装置、设备、介质
CN114691828A (zh) 数据处理方法、装置、设备以及介质
CN113962224A (zh) 命名实体识别方法及其装置、设备、介质、产品
CN114860892A (zh) 层次类目预测方法、装置、设备和介质
CN115129804A (zh) 地址联想方法及其装置、设备、介质、产品
CN114626926A (zh) 商品搜索类目识别方法及其装置、设备、介质、产品
CN117251777A (zh) 数据处理方法、装置、计算机设备和存储介质
CN116166858A (zh) 基于人工智能的信息推荐方法、装置、设备及存储介质
CN113342866B (zh) 关键词更新方法、装置、计算机设备及存储介质
CN113434657A (zh) 电商客服应答方法及其相应的装置、设备、介质
CN115205085A (zh) 通信地址联想方法及其装置、设备、介质、产品
CN115309905A (zh) 广告文本生成方法及其装置、设备、介质
CN115018548A (zh) 广告文案预测方法及其装置、设备、介质、产品
CN113722446A (zh) 电力系统操作数据生成方法、装置、计算机设备
CN114049484A (zh) 商品图像检索方法及其装置、设备、介质、产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination