CN115205085A - 通信地址联想方法及其装置、设备、介质、产品 - Google Patents
通信地址联想方法及其装置、设备、介质、产品 Download PDFInfo
- Publication number
- CN115205085A CN115205085A CN202211032819.7A CN202211032819A CN115205085A CN 115205085 A CN115205085 A CN 115205085A CN 202211032819 A CN202211032819 A CN 202211032819A CN 115205085 A CN115205085 A CN 115205085A
- Authority
- CN
- China
- Prior art keywords
- address
- text
- recall
- address text
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000004891 communication Methods 0.000 title claims abstract description 33
- 239000013598 vector Substances 0.000 claims description 232
- 238000012549 training Methods 0.000 claims description 56
- 230000011218 segmentation Effects 0.000 claims description 41
- 238000012545 processing Methods 0.000 claims description 29
- 238000004422 calculation algorithm Methods 0.000 claims description 25
- 235000019580 granularity Nutrition 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 16
- 238000011176 pooling Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000012163 sequencing technique Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 2
- 238000005065 mining Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000004132 cross linking Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/08—Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/08—Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
- G06Q10/083—Shipping
- G06Q10/0835—Relationships between shipper or supplier and carriers
- G06Q10/08355—Routing methods
Abstract
本申请公开一种通信地址联想方法及其装置、设备、介质、产品,所述方法包括:获取用户的地址文本集,其中包含录入地址文本及历史地址文本;调用至少两个召回接口实施数据召回,每个召回接口根据地址文本集中的各个地址文本从标准地址库中召回相应多个候选地址子集,每个候选地址子集均包含被召回的标准地址文本;将各个候选地址子集合并为召回地址集,将各个标准地址文本在所有候选地址子集中出现的频次确定为相应的标准地址文本的召回权重;计算所述录入地址文本与所述召回地址集中各个标准地址文本的语义相似度匹配其相应的召回权重获得的排序分值,根据该排序分值对召回地址集进行排序后推送给所述用户。本申请能够实现更精准的地址联想效果。
Description
技术领域
本申请涉及电商信息处理技术领域,尤其涉及一种通信地址联想方法及其相应的装置、计算机设备、计算机可读存储介质,以及计算机程序产品。
背景技术
物流服务体系在电商领域中特别重要。物流服务是从接收顾客订单开始到将商品送到顾客手中为止所发生的所有服务活动,可使交易的产品或服务实现增值。其本质是更好地满足顾客需求,即保证顾客需要的商品在顾客要求的时间内准时送达,服务能达到顾客所要求的水平等。
为了提升用户体验,电商平台会为用户录入物流送达地址的过程提供地址联想服务,传统的实现方式中,出于地址文本普遍较短的特点,常简单采用编辑距离算法的方式,或者采用地址文本的浅层语义的方式,将候选地址与用户录入地址进行语义匹配,然后将实现匹配的候选地址推荐给用户。
实践中,仅基于编辑距离算法或者浅层语义进行匹配的方式,常导致匹配出的候选地址不够精准,导致地址联想的用户体验不佳,因而需要改进。
发明内容
本申请的首要目的在于解决上述问题而提供一种通信地址联想方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品。
为满足本申请的各个目的,本申请采用如下技术方案:
适应本申请的目的之一而提供的一种通信地址联想方法,包括如下步骤:
获取用户的地址文本集,所述地址文本集包含用户提交的录入地址文本及该用户历史使用的历史地址文本;
调用至少两个召回接口实施数据召回,每个召回接口根据所述地址文本集中的各个地址文本从标准地址库中召回相应多个候选地址子集,每个候选地址子集均包含被召回的标准地址文本;
将各个候选地址子集合并为召回地址集,将各个标准地址文本在所有候选地址子集中出现的频次确定为相应的标准地址文本的召回权重;
计算所述录入地址文本与所述召回地址集中各个标准地址文本的语义相似度匹配其相应的召回权重获得的排序分值,根据该排序分值对召回地址集进行排序后推送给所述用户。
可选的,计算所述录入地址文本与所述召回地址集中各个标准地址文本的语义相似度匹配其相应的召回权重获得的排序分值,包括:
分别对所述录入地址文本和召回地址集中的各个标准地址执行两种以上粒度的分词处理,构造每一粒度相对应的分词序列;
对应每个地址文本,将其多种粒度的分词序列分别转换为嵌入向量;
基于每个地址文本的全部嵌入向量提取其深层语义信息,获得相应的地址文本的地址特征向量;
应用预设的数据距离算法,计算所述录入地址文本的地址特征向量与召回地址集中各个所述的标准地址文本的地址特征向量之间的数据距离作为语义相似度,将每个标准地址文本的语义相似度与其召回权重相乘获得排序分值。
可选的,基于每个地址文本的全部嵌入向量提取其深层语义信息,获得相应的地址文本的地址特征向量,包括:
对于每个地址文本的全部嵌入向量,轮流将其中每个嵌入向量作为查询向量,同时将其余嵌入向量作为键向量和值向量,输入注意力层中执行注意力运算,获得其中各个嵌入向量相对应的关键特征向量;
对每个地址文本的全部嵌入向量分别执行池化操作后拼接,获得其中各个嵌入向量相对应的压缩特征向量;
对于每个地址文本,将其所有关键特征向量及所有压缩特征向量拼接为地址特征向量。
可选的,计算所述录入地址文本与所述召回地址集中各个标准地址文本的语义相似度匹配其相应的召回权重获得的排序分值的步骤中,采用预训练至收敛状态的地址文本匹配模型实施所述录入地址文本与所述标准地址文本的语义相似度的计算,以确定出召回地址集中每个标准地址文本对应所述录入地址文本的所述排序分值。
可选的,所述地址文本匹配模型的工作过程包括:
应用编码层分别对所述录入地址文本及召回地址集中的单个标准地址文本进行编码,获得其相应的各个嵌入向量;
应用特征提取层分别对所述录入地址文本及所述单个标准地址文本各自的嵌入向量进行基于注意力和池化操作的运算,获得各个地址文本相应的地址特征向量;
应用线性层计算所述录入地址文本及所述单个标准地址文本各自的地址特征向量之间的语义相似度,获得相似度向量;
应用分类器对所述召回权重与所述相似度向量的乘积矩阵做分类映射,获得其映射到预设的分类空间的正向类别的分类概率作为所述的排序分值,其中,所述正向类别为所述地址文本匹配模型在训练阶段确定为输入正样本相对应的类别。
可选的,所述地址文本匹配模型的训练过程包括:
调用数据集中的单个训练样本,所述训练样本包括两个地址文本且关联设置为表征两个地址文本是否指向同一地址的监督标签;
将所述训练样本的两个地址文本同步输入所述地址文本匹配模型,由地址文本匹配模型预测出其映射到所述分类空间的相对应的分类结果;
根据所述训练样本的监督标签计算所述分类结果的损失值,在所述损失值未达到预设收敛条件时对地址文本匹配模型实施梯度更新,继续从数据集中调用训练样本以实施迭代训练,直至达至所述预设收敛条件。
适应本申请的目的之一而提供的一种通信地址联想装置,包括:用户地址获取模块、多路召回执行模块、召回权重确定模块,以及相似匹配排序模块,其中:所述用户地址获取模块,设置为获取用户的地址文本集,所述地址文本集包含用户提交的录入地址文本及该用户历史使用的历史地址文本;所述多路召回执行模块,设置为调用至少两个召回接口实施数据召回,每个召回接口根据所述地址文本集中的各个地址文本从标准地址库中召回相应多个候选地址子集,每个候选地址子集均包含被召回的标准地址文本;所述召回权重确定模块,设置为将各个候选地址子集合并为召回地址集,将各个标准地址文本在所有候选地址子集中出现的频次确定为相应的标准地址文本的召回权重;所述相似匹配排序模块,设置为计算所述录入地址文本与所述召回地址集中各个标准地址文本的语义相似度匹配其相应的召回权重获得的排序分值,根据该排序分值对召回地址集进行排序后推送给所述用户。
可选的,所述相似匹配排序模块,包括:分词处理子模块,设置为分别对所述录入地址文本和召回地址集中的各个标准地址执行两种以上粒度的分词处理,构造每一粒度相对应的分词序列;词嵌入子模块,设置为对应每个地址文本,将其多种粒度的分词序列分别转换为嵌入向量;语义挖掘子模块,设置为基于每个地址文本的全部嵌入向量提取其深层语义信息,获得相应的地址文本的地址特征向量;分值计算子模块,设置为应用预设的数据距离算法,计算所述录入地址文本的地址特征向量与召回地址集中各个所述的标准地址文本的地址特征向量之间的数据距离作为语义相似度,将每个标准地址文本的语义相似度与其召回权重相乘获得排序分值。
可选的,语义挖掘子模块,包括:注意力运算单元,设置为对于每个地址文本的全部嵌入向量,轮流将其中每个嵌入向量作为查询向量,同时将其余嵌入向量作为键向量和值向量,输入注意力层中执行注意力运算,获得其中各个嵌入向量相对应的关键特征向量;特征压缩单元,设置为对每个地址文本的全部嵌入向量分别执行池化操作后拼接,获得其中各个嵌入向量相对应的压缩特征向量;特征综合单元,设置为对于每个地址文本,将其所有关键特征向量及所有压缩特征向量拼接为地址特征向量。
可选的,所述相似匹配排序模块中,采用预训练至收敛状态的地址文本匹配模型实施所述录入地址文本与所述标准地址文本的语义相似度的计算,以确定出召回地址集中每个标准地址文本对应所述录入地址文本的所述排序分值。
可选的,适应所述地址文本匹配模型的工作过程所构造的装置:编码处理模块,设置为应用编码层分别对所述录入地址文本及召回地址集中的单个标准地址文本进行编码,获得其相应的各个嵌入向量;特征处理模块,设置为应用特征提取层分别对所述录入地址文本及所述单个标准地址文本各自的嵌入向量进行基于注意力和池化操作的运算,获得各个地址文本相应的地址特征向量;计算处理模块,设置为应用线性层计算所述录入地址文本及所述单个标准地址文本各自的地址特征向量之间的语义相似度,获得相似度向量;分类处理模块,设置为应用分类器对所述召回权重与所述相似度向量的乘积矩阵做分类映射,获得其映射到预设的分类空间的正向类别的分类概率作为所述的排序分值,其中,所述正向类别为所述地址文本匹配模型在训练阶段确定为输入正样本相对应的类别。
可选的,适应所述地址文本匹配模型的训练过程所构造的装置:样本调用模块,设置为调用数据集中的单个训练样本,所述训练样本包括两个地址文本且关联设置为表征两个地址文本是否指向同一地址的监督标签;模型推理模块,设置为将所述训练样本的两个地址文本同步输入所述地址文本匹配模型,由地址文本匹配模型预测出其映射到所述分类空间的相对应的分类结果;迭代决策模块,设置为根据所述训练样本的监督标签计算所述分类结果的损失值,在所述损失值未达到预设收敛条件时对地址文本匹配模型实施梯度更新,继续从数据集中调用训练样本以实施迭代训练,直至达至所述预设收敛条件。
适应本申请的目的之一而提供的一种计算机设备,包括中央处理器和存储器,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的通信地址联想方法的步骤。
适应本申请的另一目的而提供的一种计算机可读存储介质,其以计算机可读指令的形式存储有依据所述的通信地址联想方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行该方法所包括的步骤。
适应本申请的另一目的而提供的一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现本申请任意一种实施例中所述方法的步骤。
相对于现有技术,本申请根据用户录入地址文本及用户的历史地址文本,通过多个召回接口,分别从标准地址库中召回多个候选地址子集,既融合了用户对历史地址的使用习惯,又确保召回率的提升,进一步,根据同一标准地址文本在各个候选地址子集中出现的频次来确定各个标准地址文本的召回权重,在后续计算录入地址文本与标准地址文本的语义相似度之后匹配相应的召回权重获得排序分值,使排序分值承载了用户使用习惯、语义关联程度等信息,在全面召回的所有标准地址文本的基础上,精准排序,高效确定出召回地址集供用户选用,实现地址联想服务质量的提升。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请的通信地址联想方法在一个实施例中的流程示意图;
图2为本申请实施例中确定两个地址文本之间的排序分值的流程示意图;
图3为本申请实施例中根据地址文本的嵌入向量构造相应的地址特征向量的流程示意图;
图4为本申请示例性的地址文本匹配模型的网络架构示意图;
图5为本申请所述地址文本匹配模型的工作流程示意图;
图6为本申请所述地址文本匹配模型的训练流程示意图;
图7为本申请的通信地址联想装置的原理框图;
图8为本申请所采用的一种计算机设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他诸如个人计算机、平板电脑之类的通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(PersonalCommunications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件,本质上是具备个人计算机等效能力的电子设备,为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置,计算机程序存储于其存储器中,中央处理器将存储在外存中的程序调入内存中运行,执行程序中的指令,与输入输出设备交互,借此完成特定的功能。
需要指出的是,本申请所称的“服务器”这一概念,同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理,所述各服务器应是逻辑上的划分,在物理空间上,这些服务器既可以是互相独立但可通过接口调用的,也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通,而不应以此约束本申请的网络部署方式的实施方式。
本申请的一个或数个技术特征,除非明文指定,既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问,也可直接部署并运行于客户端来实施访问。
本申请中所引用或可能引用到的神经网络模型,除非明文指定,既可部署于远程服务器且在客户端实施远程调用,也可部署于设备能力胜任的客户端直接调用,某些实施例中,当其运行于客户端时,其相应的智能可通过迁移学习来获得,以便降低对客户端硬件运行资源的要求,避免过度占用客户端硬件运行资源。
本申请所涉及的各种数据,除非明文指定,既可远程存储于服务器,也可存储于本地终端设备,只要其适于被本申请的技术方案所调用即可。
本领域技术人员对此应当知晓:本申请的各种方法,虽然基于相同的概念而进行描述而使其彼此间呈现共通性,但是,除非特别说明,否则这些方法都是可以独立执行的。同理,对于本申请所揭示的各个实施例而言,均基于同一发明构思而提出,因此,对于相同表述的概念,以及尽管概念表述不同但仅是为了方便而适当变换的概念,应被等同理解。
本申请即将揭示的各个实施例,除非明文指出彼此之间的相互排斥关系,否则,各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例,只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通,本领域技术人员应当知晓。
本申请的一种通信地址联想方法,可被编程为计算机程序产品,部署于客户端和/或服务器中运行而实现,例如在本申请的电商平台应用场景中可以实现于网站页面中,通过协调客户端与服务器之间的信息交互。
请参阅图1,本申请的通信地址联想方法在其典型实施例中,包括如下步骤:
步骤S1100、获取用户的地址文本集,所述地址文本集包含用户提交的录入地址文本及该用户历史使用的历史地址文本;
电商平台中,当用户在订单结算页面,或者在物流地址编辑页面录入地址信息时,相应页面的业务逻辑在运行过程中,可将用户录入的地址信息提交到电商平台的服务器中。用户录入而提交的地址信息即录入地址文本,其通常包括由各级官方行政区划构成的前缀信息,例如“广东省广州市黄埔区”,也可以包括紧跟所述前缀信息之后的详情地址信息。地址联想服务重点在用户录入所述前缀信息的过程中介入,但也不排除适用于对所述详情地址信息部分的预测的可能。
用户的录入地址文本仅用于表示用户当前需要录入的目标地址,但用户的常住地通常不会发生较大变化,其常用的送货地址通常也相对固定,因而,可以引用用户以往确认的物流送达地址作为历史地址文本,在本申请中作为实现数据查全的参考信息。
为了实现数据查全,一个实施例中,在服务器接收到用户提交的录入地址文本之后,从该用户的个人账户中获取其历史使用的历史地址文本,然后将所述历史地址文本与所述录入地址文本共同构成所述用户的地址文本集。
在获取用户的历史地址文本时,可以按照预设历史时期进行获取,例如,获取即日起回溯半年内的历史地址文本。
一个实施例中,用户提交的录入地址文本可能包含错别字或者其他无效词字符,因而,也可预先对所述的录入地址文本进行文本格式预处理,更正其中的错别字,删除其中的无效字符。例如,对于“广东省广州市黄浦区”,其中的“黄浦区”实际是上海市的下辖区,广州市的下辖区应为“黄埔区”,因而,可以将其修正为“广东省广州市黄埔区”。
通常,每个国家的用户在录入地址信息时,会默认省略其所在国的国别,因而,在一个实施例中,还可进一步在用户录入地址文本及其历史地址文本的基础上拼接国家名称,以便通过该国家名称兼容处理多国地址联想服务的情况。
步骤S1200、调用至少两个召回接口实施数据召回,每个召回接口根据所述地址文本集中的各个地址文本从标准地址库中召回相应多个候选地址子集,每个候选地址子集均包含被召回的标准地址文本;
为避免数据召回不全,本申请中,设置两个以上采用不同召回算法实现的召回接口,通过同步调用各个召回接口来实现从一个预设的标准地址库中召回标准地址文本,每个召回接口所召回的全部标准地址文本,构成该召回接口相对应的候选地址子集。
每个召回接口所实现的功能,是根据一个给定的地址文本,即所述录入地址文本或一个所述的历史地址文本,按照按召回接口预设的相似匹配算法,根据所述地址文本与标准地址库中的各个预设的标准地址文本进行相似匹配,计算出彼此之间的相似度,然后,根据预设阈值,筛选出相似度超过该预设阈值的全部标准地址文本,用于构造该召回接口相对应的候选地址子集。
所述相似匹配算法,可以是如下算法中任意之一:
1、杰卡德(Jaccard)算法,其示例性公式表示为:
根据该公式,对于作为输入传递给采用杰卡德算法的召回接口的地址文本,以及标准地址库中的任意一个标准地址文本,先通过分词将它们切分为分词集,然后,计算两个分词集之间的交集与它们的并集减去交集之后的差值之积,确定为它们之间的相似度。标准地址库中的每个标准地址文本均可相对作为输入的地址文本而确定其相应的相似度,最后,根据预设阈值对标准地址库进行筛选,即可获得相应的候选地址子集。
2、Levenshtein算法,其示例性公式表示为:
|LN(s)∩LN(t)|÷(|LN(s)|+0.001)
根据该公式,对于作为输入传递给采用Levenshtein算法的召回接口的地址文本,以及标准地址库中的任意一个标准地址文本,将它们视为两个字符串,将较长字符串剪切为较短字符串的长度,然后计算其中一个转成另一个所需的最少编辑操作次数,将其量化至相似度。同理,标准地址库中的每个标准地址文本均可相对作为输入的地址文本而确定其相应的相似度,最后,根据预设阈值对标准地址库进行筛选,即可获得相应的候选地址子集。
3、最长公共子串算法,其通过计算作为输入的地址文本与标准地址库中任意一个标准地址文本之间最长连续相同的子串长度,将该长度量化为相似度,使得标准地址库中的每个标准地址文本均可相对作为输入的地址文本而确定其相应的相似度,然后根据预设阈值对标准地址库进行筛选,即可获得相应的候选地址子集。
一个实施例中,可以设置三个召回接口,分别采用以上三种算法来实现其业务逻辑,以供本申请的调用,从而,对每个召回接口的调用,均可获得该召回接口相对应的候选地址子集,所述候选地址子集中可能包含多个来自所述标准地址库的标准地址文本。不难理解,采用两个或两个以上的召回接口对标准地址库中的标准地址文本实施召回操作,可以更全面地获取用户的地址文本集的相似数据,实现数据查全。
所述的标准地址库中的标准地址文本,可以是根据各个的官方行政区划,通过串接具有上下级管辖关系的各级官方行政区划所构成的文本,其具有权威性,可以用做标准用于引导用户对地址信息的录入过程。
步骤S1300、将各个候选地址子集合并为召回地址集,将各个标准地址文本在所有候选地址子集中出现的频次确定为相应的标准地址文本的召回权重;
各个召回接口对应获得的全部候选地址文本即为根据用户地址文本集召回的全部标准地址数据,因而,可以将所有候选地址文本进行合并,获得一个召回地址集。合并过程中应对相同的标准地址文本进行去重,使得所述召回地址集中的标准地址文本具有唯一性。由于同一标准地址文本可能通过不同召回通道召回,因而,一个标准地址文本可能出现在多个候选地址文本中,其出现次数,也即出现该标准地址文本的候选地址文本数量,便可用于表征该标准地址文本的召回权重。不难理解,召回权重越高,意味着相应的标准地址文本与传递给各个召回接口的地址文本构成相似的概率越高,也表征召回准确度越高。因而,后续可以使用该召回权重用于校正相应的标准地址文本与所述录入地址文本之间的语义相似度而获得相应的排序分值。
步骤S1400、计算所述录入地址文本与所述召回地址集中各个标准地址文本的语义相似度匹配其相应的召回权重获得的排序分值,根据该排序分值对召回地址集进行排序后推送给所述用户。
所述的召回地址集中,包含了根据用户地址文本集中的各个地址文本从标准地址库召回的全部标准地址文本,这些标准地址文本与所述录入地址文本之间的相似程度良莠不齐,因而需要对召回地址集中的全部标准地址文本进行排序处理。
一种实施例中,可以采用任何一种语义相似度算法,先计算所述录入地址文本与召回地址集中的各个标准地址文本的语义相似度,针对每个标准地址文本相对应的语义相似度,使用该标准地址文本相对应的召回权重与之相乘,获得相应的乘积作为该标准地址文本的排序分值。不难理解,该排序分值不仅承载了用户的历史地址文本提供的参考信息,而且也承载了被召回的标准地址文本与所述录入地址文本之间的相似程度,因而能够更精准地表示所召回的标准地址文本对于所述录入地址文本的关联度。据此,根据所述排序分值对召回地址集中的全部标准地址文本进行排序,再将排序后的所述召回地址集推送给用户进行选用,便可实现按照各标准地址文本与录入地址文本的相似程度为用户呈现地址联想结果。
另一实施例中,可以在前一实施例的基础上,根据预设数量对确定排序后的所述召回地址集进行筛选,按照预设数量,筛选出排序分值最大的若干个标准地址文本,将其他标准地址文本从召回地址集中删除,然后再将过滤后的召回地址集推送给用户使用。
根据以上实施例可知,本申请根据用户录入地址文本及用户的历史地址文本,通过多个召回接口,分别从标准地址库中召回多个候选地址子集,既融合了用户对历史地址的使用习惯,又确保召回率的提升,进一步,根据同一标准地址文本在各个候选地址子集中出现的频次来确定各个标准地址文本的召回权重,在后续计算录入地址文本与标准地址文本的语义相似度之后匹配相应的召回权重获得排序分值,使排序分值承载了用户使用习惯、语义关联程度等信息,在全面召回的所有标准地址文本的基础上,精准排序,高效确定出召回地址集供用户选用,实现地址联想服务质量的提升。
在本申请任意实施例的基础上,请参阅图2,计算所述录入地址文本与所述召回地址集中各个标准地址文本的语义相似度匹配其相应的召回权重获得的排序分值,包括:
步骤S1410、分别对所述录入地址文本和召回地址集中的各个标准地址执行两种以上粒度的分词处理,构造每一粒度相对应的分词序列;
当需要确定所述的排序分值时,由于该排序分值依赖于两个地址文本之间的语义相似度,因而,适应确定语义相似度所需,可选对两个地址文本进行向量化,以便在向量的基础上确定语义相似度。
对于需要计算语义相似度的两个地址文本,即所述的录入地址文本以及被选中的召回地址集中的任意一个标准地址文本,其向量化过程是一致的。因而,以下按照单个地址文本的情况进行说明。
针对每个地址文本,并行地对其进行两种粒度的分词,具体示例,可采用N-Gram算法,分别将N设置为二元和三元,相当于实现两个以不同粒度分词的分词器,由该两个分词器对同一地址文本进行并行的分词处理,由此获得二元和三元相对应的分词序列。其中二元分词序列是以每次2个字符为滑动窗口长度对所述地址文本进行滑动取词获得的分词集合,三元分词序列则是以每次3个字符为滑动窗口长度对所述地址文本进行滑动取词获得的分词集合。
可见,针对需要计算语义相似度的两个地址文本,彼此均可并行进行分词序列的构造,并且,针对其中每一个地址文本,也是并行地进行不同粒度的分词序列的构造。
步骤S1420、对应每个地址文本,将其多种粒度的分词序列分别转换为嵌入向量;
针对所述两个地址文本中的每个地址文本,通过分词已经获得多个分词序列,例如所述的二元分词序列和三元分词序列,据此,针对每个分词序列,通过引用预设的参考词表,查询该分词序列中的每个分词的编码数值,按照各个分词在其相应的分词序列中的对应位置,将所有分词的编码数值有序构造为一个嵌入向量,便实现对该分词序列的词嵌入。由此可见,根据如前示例,所述两个地址文本中,每个地址文本均可获得其相应的二元嵌入向量和三元嵌入向量。
步骤S1430、基于每个地址文本的全部嵌入向量提取其深层语义信息,获得相应的地址文本的地址特征向量;
对于所述两个地址文本中的每个地址文本,可以在其获得的所有嵌入向量例如前述示例的二元嵌入向量和三元嵌入向量的基础上,借助文本特征提取模型,提取了其深层语义信息。据此实现的一种实施例中,对于同一地址文本,先将其所述二元嵌入向量和三元嵌入向量拼接为综合特征矩阵,然后输入文本特征提取模型中提取出其深层语义信息,将所述深层语义信息表示为高维向量,便可作为地址特征向量使用。
后续即将揭示的其他实施例中,可以进一步结合各种深层语义挖掘手段,对各个地址文本相对应的嵌入向量进行更为深层的语义挖掘,使所述的地址特征向量更能精准地表示相应的地址文本的语义,以期进一步提升根据所述地址特征向量计算的语义相似度的准确度。
根据以上原理可知,所述两个地址文本中的每个地址文本均可获得其相应的地址特征向量,实现对相应的地址文本的深层语义表示。
步骤S1440、应用预设的数据距离算法,计算所述录入地址文本的地址特征向量与召回地址集中各个所述的标准地址文本的地址特征向量之间的数据距离作为语义相似度,将每个标准地址文本的语义相似度与其召回权重相乘获得排序分值。
在确定所述两个地址文本各自相应的地址特征向量的基础上,便可应用预设的任意一种数据距离算法用于计算它们之间的语义相似度。
所述的数据距离算法,可为任意可用的数据距离算法,包括但不限于如下任意一种:余弦相似度算法、向量点积算法、欧氏距离算法、皮尔逊相关系数等。通过采用任意一种数据距离算法计算出所述两个地址文本之间的数据距离,再将召回地址集中的所有标准地址文本相应的数据距离进行归一化,即可转换为相应的语义相似度。至此可知,每个标准地址文本相对应的语义相似度,表征该标准地址文本与所述录入地址文本之间的语义关联程度,语义相似度越高,则两者的文本内容越一致,反之,语义相似度越低,则两者的文本内容越不一致。
根据以上实施例可知,在对需要计算彼此之间的语义相似度的两个地址文本即所述的录入标准文本及所述召回地址集中的任意一个标准地址文本计算语义相似度之前的向量化过程中,先对每个地址文本同步进行不同粒度的分词获得其多个嵌入向量,通过不同粒度的分词更精准地实现对地址的语义表达,例如,对于“广东省广州市黄埔区”,通过二元分词可以获得分词序列为[广东;东省;省广;广州;州市;市黄;黄埔;埔区],而通过三元分词可以获得分词序列为[广东省;东省广;省广州;广州市;州市黄;市黄埔;黄埔区],由此可见,二元分词序列中的分词[广东;广州;黄埔]可以起到精准表示地址的作用,三元分词序列中的分词[广东省;广州市;黄埔区]也可以起到精准表示地址的作用,可见,不同粒度的分词更能精准发现地址信息的各种可能表达,为后续进行语义挖掘提供必要的信息化基础,以使语义相似度的确定更为精准。
在本申请任意实施例的基础上,请参阅图3,基于每个地址文本的全部嵌入向量提取其深层语义信息,获得相应的地址文本的地址特征向量,包括:
步骤S1431、对于每个地址文本的全部嵌入向量,轮流将其中每个嵌入向量作为查询向量,同时将其余嵌入向量作为键向量和值向量,输入注意力层中执行注意力运算,获得其中各个嵌入向量相对应的关键特征向量;
为了实现更为深层的语义挖掘,本实施例中,可以进一步应用注意力层,为每个地址文本的全部嵌入向量执行注意力运算,以获得相应的地址特征向量。
注意力运算的机制是使用给定的查询向量从给定的键向量中查询出其中的关键权重信息,然后在所述关键权重信息的归一化结果的基础上从所述值向量中提取出关键特征向量。
根据这一机制,本实施例中,对于每个地址文本的全部嵌入向量来说,确定其中的第一嵌入向量为查询向量,其他嵌入向量为键向量和值向量,然后查询出其第一嵌入向量相对应的第一关键特征向量。针对其中的每个嵌入向量,都轮流作为第一嵌入向量与其他嵌入向量做所述的注意力运算,由此,同一地址文本中的每个嵌入向量均可获得以其为查询向量相应确定的关键特征向量,因而,同一地址文本可以获得多个关键特征向量。例如,针对同一地址文本中的所述二元嵌入向量和三元嵌入向量,便可相应获得两个关键特征向量。
本实施例中,逐一针对同一地址文本中的每个嵌入向量都确定其相应的关键特征向量,是为了实现不同嵌入向量之间的相互查询,确保最终获得的关键特征向量集合不会遗漏地址文本中的关键语义信息。
不难理解,根据本步骤,每个地址文本均能获得其相应的关键特征向量集合,即每个地址文本均有与其嵌入向量数量相对应的多个关键特征向量。
步骤S1432、对每个地址文本的全部嵌入向量分别执行池化操作后拼接,获得其中各个嵌入向量相对应的压缩特征向量;
另一方面,尽管前一步骤能够挖掘出地址文本的深层语义,但地址文本的全部嵌入向量本身具有原始语义,也可在确定语义相似度时加以利用。据此,可以通过与前一步骤并行执行本步骤,对每个地址文本的全部嵌入向量分别执行池化操作,实现对各个嵌入向量的压缩,从而获得各个嵌入向量相对应的压缩特征向量,由此可见,每个地址文本的每个嵌入向量均会被进行特征压缩而获得其相应的压缩特征向量。所述压缩特征向量虽然维数更少,但其表示的语义相对原始,对于同一地址文本来说,该地址文本的压缩特征向量与该地址文本的关键特征向量刚好互为补充,相得益彰。
步骤S1433、对于每个地址文本,将其所有关键特征向量及所有压缩特征向量拼接为地址特征向量。
为了简化对每个地址文本的特征表示,可将每个地址文本相对应的全部关键特征向量及全部压缩特征向量进行前后拼接,其拼接顺序遵守统一的预设顺序即可,由此便可获得该地址文本相对应的地址特征向量。
根据以上实施例不难理解,借助注意力层对每个地址文本的嵌入向量进行深度且全面的深层语义挖掘获得相应的关键特征向量,再结合对所述嵌入向量压缩获得的承载地址文本的原始语义的压缩特征向量,由关键特征向量和压缩特征向量共同构成地址文本的地址特征向量,可实现对地址文本的有效全面且精准的特征表示,为准确计算不同地址文本之间的语义相似度提供了可靠的信息基础。
在本申请任意实施例的基础上,计算所述录入地址文本与所述召回地址集中各个标准地址文本的语义相似度匹配其相应的召回权重获得的排序分值的步骤中,采用预训练至收敛状态的地址文本匹配模型实施所述录入地址文本与所述标准地址文本的语义相似度的计算,以确定出召回地址集中每个标准地址文本对应所述录入地址文本的所述排序分值。
适应前一实施例,如图4所示,预先构造所述地址文本匹配模型,该模型被架构为双塔模型,即包含两个处理支路,每个处理支路均包含完全相同的网络结构,每个处理支路中,沿输入至输出的方向,包括编码层和特征提取层,然后,将两个处理支路的输出分别接入线性层进行语义相似度的计算,最后再将相似度计算结果输入分类器,在分类器中为语义相似度叠加召回权重以便确定出排序分值。
根据图4所示例的地址文本匹配模型,进一步的实施例中,请参阅图5,所述地址文本匹配模型的工作过程包括:
步骤S2100、应用编码层分别对所述录入地址文本及召回地址集中的单个标准地址文本进行编码,获得其相应的各个嵌入向量;
首先,对于需要进行编码的两个地址文本,通常每次输入包括所述录入地址文本及从所述召回地址集中调用的单个标准地址文本,将两个地址文本分别输入所述地址文本匹配模型的两个支路中,先进入各个支路的编码层进行编码,其编码原理如前述步骤S1410和步骤S1420所揭示,在此恕不赘述。通过编码,获得每个地址文本相对应的多个嵌入向量。
步骤S2200、应用特征提取层分别对所述录入地址文本及所述单个标准地址文本各自的嵌入向量进行基于注意力和池化操作的运算,获得各个地址文本相应的地址特征向量;
在每个处理支路的编码层均获得其相应的地址文本的全部嵌入向量后,便可将全部嵌入向量输入其所在的处理支路的特征提取层以便构造出相应的地址特征向量。
所述特征提取层中包括两个模块,即注意力层模块和池化操作模块以及拼接层,所述注意力层模块用于执行如前步骤S1431以便确定出关键特征向量,所述池化操作模块用于执行如前步骤S1432以便确定出压缩特征向量,然后通过所述拼接层执行如前步骤S1433,从而获得相应的地址文本的地址特征向量。
步骤S2300、应用线性层计算所述录入地址文本及所述单个标准地址文本各自的地址特征向量之间的语义相似度,获得相似度向量;
当两个支路分别获得其相应输入的地址文本的地址特征向量之后,两个地址特征向量被输入所述地址文本匹配模型的线性层中,由所述的线性层执行如前所述的步骤S1440的操作过程,计算出两个地址特征向量之间的语义相似度,其可表示为一个相似度向量。
步骤S2400、应用分类器对所述召回权重与所述相似度向量的乘积矩阵做分类映射,获得其映射到预设的分类空间的正向类别的分类概率作为所述的排序分值,其中,所述正向类别为所述地址文本匹配模型在训练阶段确定为输入正样本相对应的类别。
最后,将所述相似度向量输入地址文本匹配模型的分类器中,在所述分类器中,先采用一个全连接层对所述相似度向量进行全连接,然后,将其分类映射到输出层,由输出层应用Softmax函数计算出所述相似度向量与作为输入的标准地址文本相对应的召回权重的乘积之后映射到预设的分类空间的各个类别的分类概率,然后将其中属于正向类别的分类概率直接所述标准地址文本相对应的排序分值即可。
所述分类空间中的正向类别,是指在对所述地址文本匹配模型训练的过程中,被用于对应正样本的类别。所述的分类器可以是多分类器也可以是二分类器,但在训练阶段指定一个类别为正向类别,对应采用正样本监督其结果,而在推理阶段,相应采用该正向类别的分类概率用于表示排序分值。
根据以上实施例,采用地址文本匹配模型用于实现对所述录入地址文本与召回地址集中任意一个标准地址文本的排序分值的计算,更为快速,可以服务于大量请求,从而提升地址联想的服务效率。
在本申请任意实施例的基础上,请参阅图6,所述地址文本匹配模型的训练过程包括:
步骤S3100、调用数据集中的单个训练样本,所述训练样本包括两个地址文本且关联设置为表征两个地址文本是否指向同一地址的监督标签;
预备一个数据集,在数据集中包含足以将所述地址文本匹配模型训练至收敛的足量训练样本,便可启动对所述模型的训练。
数据集中的每个训练样本均具有相同的组织形式,每个训练样本包括两个地址文本,两个地址文本可以采用完全相同的文字内容进行表达,也可以采用不同的文字内容进行表达。对应每个训练样本,关联设置一个监督标签,用于指示相应的训练样本是否在事实上指向同一地址。
对地址文本匹配模型的训练是迭代执行的,在每次迭代时,调用单个训练样本作为模型的输入,调用其相应的监督标签用于实施对模型的分类结果的监督。
步骤S3200、将所述训练样本的两个地址文本同步输入所述地址文本匹配模型,由地址文本匹配模型预测出其映射到所述分类空间的相对应的分类结果;
对应图4所示例的地址文本匹配模型的网络架构可知,所述训练样本的两个地址文本应被相应输入至所述的地址文本匹配模型的两个处理支路中,经由各个支路进行处理后,实现对各个地址文本的特征表示,获得相应的地址特征向量,然后进行线性层计算出两个地址特征向量之间的语义相似度,再经分类器进行分类映射,获得映射到预设的分类空间中的各个类别相对应的分类概率,构成分类结果。
步骤S3300、根据所述训练样本的监督标签计算所述分类结果的损失值,在所述损失值未达到预设收敛条件时对地址文本匹配模型实施梯度更新,继续从数据集中调用训练样本以实施迭代训练,直至达至所述预设收敛条件。
每个训练样本获得相应的分类结果后,便可采用其相应的监督标签计算其分类结果相对应的损失值,然后,以达到预设阈值为预设收敛条件,将所述损失值与所述预设阈值相比较,当该损失值达到该预设阈值时,表明模型已经收敛,可以终止对地址文本匹配模型的训练而投入使用。当所述损失值未达到所述预设阈值时,表明模型尚未收敛,据此,根据该损失值对该模型实施梯度更新,通过反向传播修正其各环节的权重参数,使其进一步逼近收敛,然后,继续从步骤S3100进行迭代,通过不断迭代将地址文本匹配模型训练至收敛状态即可。
根据以上实施例不难得出结论,在编码阶段采用了不同粒度的分词方式对地址文本进行分词可以获得更为丰富的原始语义,后续又通过深层语义挖掘获得地址特征向量,丰富的语义表示能力可有效防止过拟合,可以使整个地址文本匹配模型更易训练至收敛,节约训练成本,提升训练效率。
请参阅图7,适应本申请的目的之一而提供的一种通信地址联想装置,是对本申请的通信地址联想方法的功能化体现,该装置包括:用户地址获取模块1100、多路召回执行模块1200、召回权重确定模块1300,以及相似匹配排序模块1400,其中:所述用户地址获取模块1100,设置为获取用户的地址文本集,所述地址文本集包含用户提交的录入地址文本及该用户历史使用的历史地址文本;所述多路召回执行模块1200,设置为调用至少两个召回接口实施数据召回,每个召回接口根据所述地址文本集中的各个地址文本从标准地址库中召回相应多个候选地址子集,每个候选地址子集均包含被召回的标准地址文本;所述召回权重确定模块1300,设置为将各个候选地址子集合并为召回地址集,将各个标准地址文本在所有候选地址子集中出现的频次确定为相应的标准地址文本的召回权重;所述相似匹配排序模块1400,设置为计算所述录入地址文本与所述召回地址集中各个标准地址文本的语义相似度匹配其相应的召回权重获得的排序分值,根据该排序分值对召回地址集进行排序后推送给所述用户。
在本申请任意实施例的基础上,所述相似匹配排序模块1400,包括:分词处理子模块,设置为分别对所述录入地址文本和召回地址集中的各个标准地址执行两种以上粒度的分词处理,构造每一粒度相对应的分词序列;词嵌入子模块,设置为对应每个地址文本,将其多种粒度的分词序列分别转换为嵌入向量;语义挖掘子模块,设置为基于每个地址文本的全部嵌入向量提取其深层语义信息,获得相应的地址文本的地址特征向量;分值计算子模块,设置为应用预设的数据距离算法,计算所述录入地址文本的地址特征向量与召回地址集中各个所述的标准地址文本的地址特征向量之间的数据距离作为语义相似度,将每个标准地址文本的语义相似度与其召回权重相乘获得排序分值。
在本申请任意实施例的基础上,语义挖掘子模块,包括:注意力运算单元,设置为对于每个地址文本的全部嵌入向量,轮流将其中每个嵌入向量作为查询向量,同时将其余嵌入向量作为键向量和值向量,输入注意力层中执行注意力运算,获得其中各个嵌入向量相对应的关键特征向量;特征压缩单元,设置为对每个地址文本的全部嵌入向量分别执行池化操作后拼接,获得其中各个嵌入向量相对应的压缩特征向量;特征综合单元,设置为对于每个地址文本,将其所有关键特征向量及所有压缩特征向量拼接为地址特征向量。
在本申请任意实施例的基础上,所述相似匹配排序模块1400中,采用预训练至收敛状态的地址文本匹配模型实施所述录入地址文本与所述标准地址文本的语义相似度的计算,以确定出召回地址集中每个标准地址文本对应所述录入地址文本的所述排序分值。
在本申请任意实施例的基础上,适应所述地址文本匹配模型的工作过程所构造的装置:编码处理模块,设置为应用编码层分别对所述录入地址文本及召回地址集中的单个标准地址文本进行编码,获得其相应的各个嵌入向量;特征处理模块,设置为应用特征提取层分别对所述录入地址文本及所述单个标准地址文本各自的嵌入向量进行基于注意力和池化操作的运算,获得各个地址文本相应的地址特征向量;计算处理模块,设置为应用线性层计算所述录入地址文本及所述单个标准地址文本各自的地址特征向量之间的语义相似度,获得相似度向量;分类处理模块,设置为应用分类器对所述召回权重与所述相似度向量的乘积矩阵做分类映射,获得其映射到预设的分类空间的正向类别的分类概率作为所述的排序分值,其中,所述正向类别为所述地址文本匹配模型在训练阶段确定为输入正样本相对应的类别。
在本申请任意实施例的基础上,适应所述地址文本匹配模型的训练过程所构造的装置:样本调用模块,设置为调用数据集中的单个训练样本,所述训练样本包括两个地址文本且关联设置为表征两个地址文本是否指向同一地址的监督标签;模型推理模块,设置为将所述训练样本的两个地址文本同步输入所述地址文本匹配模型,由地址文本匹配模型预测出其映射到所述分类空间的相对应的分类结果;迭代决策模块,设置为根据所述训练样本的监督标签计算所述分类结果的损失值,在所述损失值未达到预设收敛条件时对地址文本匹配模型实施梯度更新,继续从数据集中调用训练样本以实施迭代训练,直至达至所述预设收敛条件。
为解决上述技术问题,本申请实施例还提供计算机设备。如图8所示,计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中,该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息向量,该计算机可读指令被处理器执行时,可使得处理器实现一种通信地址联想方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行本申请的通信地址联想方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图7中的各个模块及其子模块的具体功能,存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请的通信地址联想装置中执行所有模块/子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
本申请还提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行本申请任一实施例的通信地址联想方法的步骤。
本申请还提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被一个或多个处理器执行时实现本申请任一实施例所述方法的步骤。
本领域普通技术人员可以理解实现本申请上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等计算机可读存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
综上所述,本申请能在全面召回与用户的录入地址文本相似的标准地址文本的基础上,结合两者之间的语义相似度实现对所召回的标准地址文本的精准排序,高效确定出优质的召回地址集供用户选用,实现地址联想服务质量的提升。
本技术领域技术人员可以理解,本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种通信地址联想方法,其特征在于,包括如下步骤:
获取用户的地址文本集,所述地址文本集包含用户提交的录入地址文本及该用户历史使用的历史地址文本;
调用至少两个召回接口实施数据召回,每个召回接口根据所述地址文本集中的各个地址文本从标准地址库中召回相应多个候选地址子集,每个候选地址子集均包含被召回的标准地址文本;
将各个候选地址子集合并为召回地址集,将各个标准地址文本在所有候选地址子集中出现的频次确定为相应的标准地址文本的召回权重;
计算所述录入地址文本与所述召回地址集中各个标准地址文本的语义相似度匹配其相应的召回权重获得的排序分值,根据该排序分值对召回地址集进行排序后推送给所述用户。
2.根据权利要求1所述的通信地址联想方法,其特征在于,计算所述录入地址文本与所述召回地址集中各个标准地址文本的语义相似度匹配其相应的召回权重获得的排序分值,包括:
分别对所述录入地址文本和召回地址集中的各个标准地址执行两种以上粒度的分词处理,构造每一粒度相对应的分词序列;
对应每个地址文本,将其多种粒度的分词序列分别转换为嵌入向量;
基于每个地址文本的全部嵌入向量提取其深层语义信息,获得相应的地址文本的地址特征向量;
应用预设的数据距离算法,计算所述录入地址文本的地址特征向量与召回地址集中各个所述的标准地址文本的地址特征向量之间的数据距离作为语义相似度,将每个标准地址文本的语义相似度与其召回权重相乘获得排序分值。
3.根据权利要求2所述的通信地址联想方法,其特征在于,基于每个地址文本的全部嵌入向量提取其深层语义信息,获得相应的地址文本的地址特征向量,包括:
对于每个地址文本的全部嵌入向量,轮流将其中每个嵌入向量作为查询向量,同时将其余嵌入向量作为键向量和值向量,输入注意力层中执行注意力运算,获得其中各个嵌入向量相对应的关键特征向量;
对每个地址文本的全部嵌入向量分别执行池化操作后拼接,获得其中各个嵌入向量相对应的压缩特征向量;
对于每个地址文本,将其所有关键特征向量及所有压缩特征向量拼接为地址特征向量。
4.根据权利要求3所述的通信地址联想方法,其特征在于,计算所述录入地址文本与所述召回地址集中各个标准地址文本的语义相似度匹配其相应的召回权重获得的排序分值的步骤中,采用预训练至收敛状态的地址文本匹配模型实施所述录入地址文本与所述标准地址文本的语义相似度的计算,以确定出召回地址集中每个标准地址文本对应所述录入地址文本的所述排序分值。
5.根据权利要求4所述的通信地址联想方法,其特征在于,所述地址文本匹配模型的工作过程包括:
应用编码层分别对所述录入地址文本及召回地址集中的单个标准地址文本进行编码,获得其相应的各个嵌入向量;
应用特征提取层分别对所述录入地址文本及所述单个标准地址文本各自的嵌入向量进行基于注意力和池化操作的运算,获得各个地址文本相应的地址特征向量;
应用线性层计算所述录入地址文本及所述单个标准地址文本各自的地址特征向量之间的语义相似度,获得相似度向量;
应用分类器对所述召回权重与所述相似度向量的乘积矩阵做分类映射,获得其映射到预设的分类空间的正向类别的分类概率作为所述的排序分值,其中,所述正向类别为所述地址文本匹配模型在训练阶段确定为输入正样本相对应的类别。
6.根据权利要求5所述的通信地址联想方法,其特征在于,所述地址文本匹配模型的训练过程包括:
调用数据集中的单个训练样本,所述训练样本包括两个地址文本且关联设置为表征两个地址文本是否指向同一地址的监督标签;
将所述训练样本的两个地址文本同步输入所述地址文本匹配模型,由地址文本匹配模型预测出其映射到所述分类空间的相对应的分类结果;
根据所述训练样本的监督标签计算所述分类结果的损失值,在所述损失值未达到预设收敛条件时对地址文本匹配模型实施梯度更新,继续从数据集中调用训练样本以实施迭代训练,直至达至所述预设收敛条件。
7.一种通信地址联想装置,其特征在于,包括:
用户地址获取模块,设置为获取用户的地址文本集,所述地址文本集包含用户提交的录入地址文本及该用户历史使用的历史地址文本;
多路召回执行模块,设置为调用至少两个召回接口实施数据召回,每个召回接口根据所述地址文本集中的各个地址文本从标准地址库中召回相应多个候选地址子集,每个候选地址子集均包含被召回的标准地址文本;
召回权重确定模块,设置为将各个候选地址子集合并为召回地址集,将各个标准地址文本在所有候选地址子集中出现的频次确定为相应的标准地址文本的召回权重;
相似匹配排序模块,设置为计算所述录入地址文本与所述召回地址集中各个标准地址文本的语义相似度匹配其相应的召回权重获得的排序分值,根据该排序分值对召回地址集进行排序后推送给所述用户。
8.一种计算机设备,包括中央处理器和存储器,其特征在于,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至6中任意一项所述的方法的步骤。
9.一种计算机可读存储介质,其特征在于,其以计算机可读指令的形式存储有依据权利要求1至6中任意一项所述的方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行相应的方法所包括的步骤。
10.一种计算机程序产品,其特征在于,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现权利要求1至6中任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211032819.7A CN115205085A (zh) | 2022-08-26 | 2022-08-26 | 通信地址联想方法及其装置、设备、介质、产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211032819.7A CN115205085A (zh) | 2022-08-26 | 2022-08-26 | 通信地址联想方法及其装置、设备、介质、产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115205085A true CN115205085A (zh) | 2022-10-18 |
Family
ID=83572389
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211032819.7A Pending CN115205085A (zh) | 2022-08-26 | 2022-08-26 | 通信地址联想方法及其装置、设备、介质、产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115205085A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115563394A (zh) * | 2022-11-24 | 2023-01-03 | 腾讯科技(深圳)有限公司 | 搜索召回方法、召回模型训练方法、装置和计算机设备 |
-
2022
- 2022-08-26 CN CN202211032819.7A patent/CN115205085A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115563394A (zh) * | 2022-11-24 | 2023-01-03 | 腾讯科技(深圳)有限公司 | 搜索召回方法、召回模型训练方法、装置和计算机设备 |
CN115563394B (zh) * | 2022-11-24 | 2023-03-28 | 腾讯科技(深圳)有限公司 | 搜索召回方法、召回模型训练方法、装置和计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109190120B (zh) | 神经网络训练方法和装置及命名实体识别方法和装置 | |
WO2020224097A1 (zh) | 智能语义文档推荐方法、装置及计算机可读存储介质 | |
CN111190997B (zh) | 一种使用神经网络和机器学习排序算法的问答系统实现方法 | |
Pan et al. | Product quantization with dual codebooks for approximate nearest neighbor search | |
CN110929125A (zh) | 搜索召回方法、装置、设备及其存储介质 | |
CN111625647B (zh) | 一种无监督的新闻自动分类方法 | |
CN114186013A (zh) | 实体识别模型热更新方法及其装置、设备、介质、产品 | |
CN110580308A (zh) | 信息审核方法及装置、电子设备、存储介质 | |
CN104503597A (zh) | 笔画输入方法、装置和系统 | |
CN114065750A (zh) | 商品信息匹配、发布方法及其装置、设备、介质、产品 | |
CN111680161A (zh) | 一种文本处理方法、设备以及计算机可读存储介质 | |
CN113962224A (zh) | 命名实体识别方法及其装置、设备、介质、产品 | |
CN114626926A (zh) | 商品搜索类目识别方法及其装置、设备、介质、产品 | |
CN115545832A (zh) | 商品搜索推荐方法及其装置、设备、介质 | |
CN115205085A (zh) | 通信地址联想方法及其装置、设备、介质、产品 | |
CN113326363B (zh) | 搜索方法及装置、预测模型训练方法及装置、电子设备 | |
CN114218948A (zh) | 关键词识别方法及其装置、设备、介质、产品 | |
CN113139558B (zh) | 确定物品的多级分类标签的方法和装置 | |
CN112598039A (zh) | 获取nlp分类领域阳性样本方法及相关设备 | |
CN109815475B (zh) | 文本匹配方法、装置、计算设备及系统 | |
CN112328653B (zh) | 数据识别方法、装置、电子设备及存储介质 | |
CN115099832A (zh) | 异常用户检测方法及其装置、设备、介质、产品 | |
CN115292603A (zh) | 商品搜索方法及其装置、设备、介质 | |
CN115129804A (zh) | 地址联想方法及其装置、设备、介质、产品 | |
CN115203514A (zh) | 商品查询重定向方法及其装置、设备、介质、产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |