CN115292603A - 商品搜索方法及其装置、设备、介质 - Google Patents
商品搜索方法及其装置、设备、介质 Download PDFInfo
- Publication number
- CN115292603A CN115292603A CN202210986655.5A CN202210986655A CN115292603A CN 115292603 A CN115292603 A CN 115292603A CN 202210986655 A CN202210986655 A CN 202210986655A CN 115292603 A CN115292603 A CN 115292603A
- Authority
- CN
- China
- Prior art keywords
- commodity
- vector
- user
- feature
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Data Mining & Analysis (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及计算机技术领域中一种商品搜索方法及其装置、设备、介质,所述方法包括:响应用户搜索请求,获取该请求所指向的搜索文本及该用户的历史访问行为相对应的商品的多维度的商品信息,构造历史商品数据序列;采用双塔模型中的用户分支获得所述搜索文本与所述历史商品数据序列相对应的特征进行交互生成的用户特征向量;采用双塔模型中的商品分支获得商品数据库中的商品的多维度的商品信息相对应的特征进行交互生成的商品特征向量;根据所述用户特征向量与商品数据库中各个商品的所述商品特征向量之间的相似度,召回相似度较高的商品,构造为商品集。本申请能够精准表示商品与用户输入的搜索关键词之间的相关性,使得搜索到更多相关的商品。
Description
技术领域
本申请涉及电商技术领域,尤其涉及一种商品搜索方法及其相应的装置、计算机设备、计算机可读存储介质。
背景技术
目前,电商服务平台的用户可通过输入搜索文本,搜索所需的商品。通常平台的后台采用相关性控制模块,以对根据搜索文本检索出的商品进行过滤,只保留那些能够完全匹配搜索文本的商品,给到后续排序阶段,排序完全匹配的商品展示给用户,而过滤大量的相关性较低的商品,然而真实情况下这些商品的相关性并非不高,而是在完全匹配搜索文本的条件下无法体现这些商品的相关性,由此,被过滤的商品既耗费大量的计算资源,又导致本来可以进入后续排序的商品无法进行排序,减少了曝光率。
因此,如何精准表示商品与用户输入的搜索关键词之间的相关性,使得搜索到更多相关的商品能够展示给用户,是亟待解决的问题。
发明内容
本申请的首要目的在于解决上述问题至少之一而提供一种商品搜索方法及其相应的装置、计算机设备、计算机可读存储介质。
为满足本申请的各个目的,本申请采用如下技术方案:
适应本申请的目的之一而提供的一种商品搜索方法,包括如下步骤:
响应用户搜索请求,获取该请求所指向的搜索文本及该用户的历史访问行为相对应的商品的多维度的商品信息,构造历史商品数据序列,所述商品的商品信息包含商品标识码、商品标题及商品图片;
采用双塔模型中的用户分支获得所述搜索文本与所述历史商品数据序列相对应的特征进行交互生成的用户特征向量;
采用双塔模型中的商品分支获得商品数据库中的商品的多维度的商品信息相对应的特征进行交互生成的商品特征向量;
根据所述用户特征向量与商品数据库中各个商品的所述商品特征向量之间的相似度,召回相似度较高的商品,构造为商品集。
另一方面,适应本申请的目的之一而提供的一种商品搜索装置,包括请求响应模块、用户分支模块、商品分支模块以及商品召回模块,其中:请求响应模块,用于响应用户搜索请求,获取该请求所指向的搜索文本及该用户的历史访问行为相对应的商品的多维度的商品信息,构造历史商品数据序列,所述商品的商品信息包含商品标识码、商品标题及商品图片;用户分支模块,用于采用双塔模型中的用户分支获得所述搜索文本与所述历史商品数据序列相对应的特征进行交互生成的用户特征向量;商品分支模块,用于采用双塔模型中的商品分支获得商品数据库中的商品的多维度的商品信息相对应的特征进行交互生成的商品特征向量;商品召回模块,用于根据所述用户特征向量与商品数据库中各个商品的所述商品特征向量之间的相似度,召回相似度较高的商品,构造为商品集。
又一方面,适应本申请的目的之一而提供的一种计算机设备,包括中央处理器和存储器,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的商品搜索方法的步骤。
又一方面,适应本申请的另一目的而提供的一种计算机可读存储介质,其以计算机可读指令的形式存储有依据所述的商品搜索方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行该方法所包括的步骤。
本申请的技术方案存在多方面优势,包括但不限于如下各方面:
本申请通过采用双塔模型中的用户分支对用户当前输入的搜索文本,与该用户的历史访问行为相对应的商品的多维度的商品信息构造的历史商品序列相对应的特征进行交互,获得相应的用户特征向量。采用双塔模型中的商品分支对商品的多维度的商品信息相对应的特征进行交互,获得相应的商品特征向量,进而根据用户特征向量与商品数据库中各个商品的所述商品特征向量之间的相似度,召回相似度较高的商品,构造为商品集。可见,在双塔模型中的用户分支中,能够保证捕捉与搜索文本相关的历史访问行为,丰富用户在当前搜索下的语义/意图表征,使得所得的用户特征向量能够对搜索文本充分地进行语义表征,有助于匹配更多与用户搜索相关的商品,除此之外,在双塔模型中的商品分支中,能够保证捕捉与商品相关的商品信息,使得所得的商品特征向量能够对商品充分精准地进行语义表征,有助于保证用户特征向量与商品特征向量之间的相似度的准确度,精准召回相似度较高的商品。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请的商品搜索方法的典型实施例的流程示意图;
图2为本申请的实施例中双塔模型中的用户分支输出用户特征向量的流程示意图;
图3为本申请的实施例中基于个性化行为特征与综合特征信息进行多次特征交互获得用户特征向量的流程示意图;
图4为本申请的实施例中双塔模型中的商品分支输出商品特征向量的流程示意图;
图5为本申请的实施例中获得标识特征向量、文本特征向量、图片特征向量的流程示意图;
图6为本申请的实施例中基于文本特征向量与图片特征向量进行特征交互获得关联特征向量的流程示意图;
图7为本申请的实施例中构造商品集的流程示意图;
图8为本申请的商品搜索装置的原理框图;
图9为本申请所采用的一种计算机设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他诸如个人计算机、平板电脑之类的通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(PersonalCommunications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件,本质上是具备个人计算机等效能力的电子设备,为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置,计算机程序存储于其存储器中,中央处理器将存储在外存中的程序调入内存中运行,执行程序中的指令,与输入输出设备交互,借此完成特定的功能。
需要指出的是,本申请所称的“服务器”这一概念,同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理,所述各服务器应是逻辑上的划分,在物理空间上,这些服务器既可以是互相独立但可通过接口调用的,也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通,而不应以此约束本申请的网络部署方式的实施方式。
本申请的一个或数个技术特征,除非明文指定,既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问,也可直接部署并运行于客户端来实施访问。
本申请中所引用或可能引用到的神经网络模型,除非明文指定,既可部署于远程服务器且在客户端实施远程调用,也可部署于设备能力胜任的客户端直接调用,某些实施例中,当其运行于客户端时,其相应的智能可通过迁移学习来获得,以便降低对客户端硬件运行资源的要求,避免过度占用客户端硬件运行资源。
本申请所涉及的各种数据,除非明文指定,既可远程存储于服务器,也可存储于本地终端设备,只要其适于被本申请的技术方案所调用即可。
本领域技术人员对此应当知晓:本申请的各种方法,虽然基于相同的概念而进行描述而使其彼此间呈现共通性,但是,除非特别说明,否则这些方法都是可以独立执行的。同理,对于本申请所揭示的各个实施例而言,均基于同一发明构思而提出,因此,对于相同表述的概念,以及尽管概念表述不同但仅是为了方便而适当变换的概念,应被等同理解。
本申请即将揭示的各个实施例,除非明文指出彼此之间的相互排斥关系,否则,各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例,只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通,本领域技术人员应当知晓。
本申请的一种商品搜索方法,可被编程为计算机程序产品,部署于客户端或服务器中运行而实现,例如,本申请的示例性应用场景中,可以在电商平台的服务器中部署实现,藉此可以通过访问该计算机程序产品运行后开放的接口,通过图形用户界面与该计算机程序产品的进程进行人机交互而执行该方法。
请参阅图1,本申请的商品搜索方法,在其典型实施例中,包括如下步骤:
步骤S1100、响应用户搜索请求,获取该请求所指向的搜索文本及该用户的历史访问行为相对应的商品的多维度的商品信息,构造历史商品数据序列,所述商品的商品信息包含商品标识码、商品标题及商品图片;
一般而言,在电商平台中,用户点击、购买以及收藏等对商品的访问行为,一定程度上表示访问行为对应的商品与用户相关,譬如商品是用户日常的消耗品,商品是用户喜欢的,商品是用户拿来送礼的等等。故而电商平台可维护历史行为数据库,以存储平台上的各个用户的历史访问行为,及其对应的商品的商品标识码,所述用户的历史访问行为包含点击、购买、收藏中任意一种或多种行为,所述商品标识码是为便于区分各个商品,而为各个商品设置唯一标识码进行标识。
一般而言,电商平台可维护商品数据库,以存储平台上的由线上店铺上架的商品的商品信息,所述商品信息包含商品标题、商品图片、商品标识码,使得平台可根据商品信息上架展示相对应的商品。所述商品标题是电商平台的线上店铺的商家用户上架商品时为该商品输入的作为标题的文本,所述商品图片是电商平台的线上店铺的商家用户上架商品时为该商品上传的用于展示的图片,包含商品头图、商品详情图等,在后续调用中可视乎具体情况而斟酌调用一张或多张商品图片。
电商平台的用户可在其客户端展示的商品搜索页面上操作,输入搜索文本,所述搜索文本可以关键词输入或完整输入类如商品属性、商品名称、商品功能等与商品相关的文本,然后,触控页面上相关的提交控件,在客户端触发生成用户搜索请求,进而,客户端将包含用户输入的搜索文本的用户搜索请求提交至电商服务平台的服务器,以获取与所述搜索文本相关的商品。
服务器接收所述用户搜索请求,对其进行响应,获取该请求指向的所述用户输入的搜索文本。另外,以当前接收用户搜索请求对应的时间戳,可以距离该时间戳的不同时长分出多种时间维度,由此,服务器获取各种时间维度相对应的所述用户的历史访问行为相对应的商品的多维度的商品信息,构造出对应各种时间维度的历史商品数据序列,所述多种时间维度可为短期、长期,所述短期可为距离该时间戳十天,所述长期可为距离该时间戳一个月。
具体而言,所述时间维度为短期时,从所述历史行为数据库中,获取短期内所述用户的历史访问行为是点击相对应的一个或多个商品的商品标识码,根据商品标识码从商品数据库中,获取相应商品的商品标题和商品图片,所述商品图片可只取一张最能表述商品的图片例如商品头图。针对各个被用户点击的商品,采用编码层对其商品标题、商品图片、商品标识码分别进行编码,将编码所得的商品标题、商品图片、商品标识码相对应的编码特征信息进行拼接,获得该商品的编码表示。进一步,以各个商品的编码表示作为序列元素,构造出短期的历史商品数据序列。
所述时间维度为长期时,从所述历史行为数据库中,获取长期内所述用户的历史访问行为是点击相对应的一个或多个商品的商品标识码,根据商品标识码从商品数据库中,获取相应商品的商品标题和商品图片,所述商品图片可只取一张最能表述商品的图片例如商品头图。针对各个被用户点击的商品,采用编码层对其商品标题、商品图片、商品标识码分别进行编码,将编码所得的商品标题、商品图片、商品标识码相对应的编码特征信息进行拼接,获得该商品的编码表示。进一步,以各个商品的编码表示作为序列元素,构造出用户的历史访问行为是点击的长期的历史商品数据序列。同理,参考前述,构造出用户的历史访问行为是购买及收藏分别对应的长期的历史商品数据序列。
步骤S1200、采用双塔模型中的用户分支获得所述搜索文本与所述历史商品数据序列相对应的特征进行交互生成的用户特征向量;
采用多种分词粒度对所述搜索文本进行分词,所述多种分词粒度包含单字粒度、多字粒度(字数大于1小于等于3)、分词粒度,对应各种分词粒度的分词实现可采用N-Gram分词算法、jieba分词算法等中任一种,从而相对应获得单字粒度序列、多字粒度序列及分词粒度序列。采用编码层对各个分词序列进行相应的编码,获得各个分词序列相对应的编码特征信息,进一步,对各个分词序列相对应的编码特征信息分别进行均值池化,提取出各个分词序列的序列特征向量。所述编码特征信息是将各个分词序列分别映射至编码层的编码词表而获得相对应的映射信息,所述映射信息具体表现为密集矩阵,所述编码词表是通过对编码层进行特征表示学习而得,具体实现可由本领域技术人员按此处揭示按需实现。
采用Transformer模型的编码器模块对所述分词粒度序列的编码特征信息应用自注意力层进行特征交互,继而对模型的最后一层中的隐层向量进行均值池化,由此,提取出分词粒度序列的深层语义信息,获得模型输出的深层语义向量。
从发送所述用户搜索请求的用户的历史搜索记录中,获取所述用户的历史搜索行为相对应的历史搜索文本,采用分词粒度对历史搜索文本进行分词,获得相应的分词序列,进一步,采用编码层对该分词序列进行编码,提取相对应的编码特征信息。所述历史搜索记录可由电商平台对平台上的各个用户的每次搜索行为所输入的搜索文本进行存储,以备调用。
将所述分词粒度序列的序列特征向量作为查询向量,将所述编码特征信息作为键向量和值向量,通过注意力层查询出所述编码特征信息中的关键特征信息,所述关键特征信息表征该用户历史搜索输入的搜索文本与当前用户搜索输入的搜索文本最相关的特征信息,具体表现为向量。
将所述单字粒度序列、多字粒度序列及分词粒度序列相对应的序列特征向量、深层语义向量、关键特征信息按元素相加获得混合特征向量,进一步,垂直拼接各个序列特征向量、深层语义向量、关键特征信息以及混合特征向量,构造出综合特征信息。
采用多头自注意力层提取出所述短期的历史商品数据序列对应的深层语义信息,在深层语义信息中添加全零的向量,获得加零的深层语义信息作为短期的个性化行为特征。另外,对所述用户的历史访问行为是点击、购买及收藏分别对应的长期的历史商品数据序列进行均值池化,获得各个长期的历史商品数据序列相对应的深层语义信息进行垂直拼接,在拼接后的深层语义信息中添加全零的向量,获得加零的深层语义信息作为长期的个性化行为特征。进一步,应用注意层对所述短期的个性化行为特征及长期的个性化行为特征分别与所述综合特征信息进行交互,获得短期的个性化行为特征及长期的个性化行为特征分别与综合特征信息最相关的特征信息,将短期的个性化行为特征及长期的个性化行为特征相对应的特征信息,与综合特征信息进行垂直拼接输入至多头自注意力层进行特征交互,获得该多头自注意力层的输出作为用户特征向量。
步骤S1300、采用双塔模型中的商品分支获得商品数据库中的商品的多维度的商品信息相对应的特征进行交互生成的商品特征向量;
从商品数据库中获取存储的商品的商品标识码、商品标题、商品图片,提取出商品标识码、商品标题、商品图片相对应的特征,相应获得标识特征向量、文本特征向量、图片特征向量。进一步,以所述文本特征向量作为查询向量,图片特征向量作为键向量及值向量,应用注意力层进行特征交互,获得该注意力层的输出与所述标识特征向量相加作为商品特征向量,所述注意力层的输出表征图片特征向量与文本特征向量最相关的特征信息。
步骤S1400、根据所述用户特征向量与商品数据库中各个商品的所述商品特征向量之间的相似度,召回相似度较高的商品,构造为商品集。
一种实施例中,将所述用户特征向量与商品数据库中各个商品的所述商品特征向量建立映射关系构建成向量集存储进faiss库中,进一步,将该向量集进行预处理和封装成一个索引文件(index file)进行存储后,便可以所述用户特征向量作为faiss的输入,根据所述用户特征向量与各个商品的所述商品特征向量之间的相似度,召回商品数据库中相似度较高的商品,由此,以所述相似度较高的商品构造为商品集。所述faiss(Facebook AlSimilarity Search)能够针对高维空间中的海量数据(稠密向量),提供了高效且可靠的相似性聚类和检索方法,可支持十亿级别向量的搜索,是近似近邻搜索库。
另一种实施例中,可采用任意一种数据距离算法实施,包括但不限于余弦相似度算法、欧氏距离算法、皮尔逊相关系数算法、杰卡德系数算法等等任意一项,计算出所述用户特征向量与商品数据库中的各个商品的所述商品特征向量之间的相似度,进而以相似度高到低的顺序,对相应的商品进行排序,召回排序靠前集所述相似度较高的商品,构造为商品集。
进一步,应当所述用户搜索请求,将所述商品集推送至发送所述用户搜索请求的客户端,在其相关的商品页面上展示。
根据本申请的典型实施例可以知晓,本申请的技术方案存在多方面优势,包括但不限于如下各方面:
本申请通过采用双塔模型中的用户分支对用户当前输入的搜索文本,与该用户的历史访问行为相对应的商品的多维度的商品信息构造的历史商品序列相对应的特征进行交互,获得相应的用户特征向量。采用双塔模型中的商品分支对商品的多维度的商品信息相对应的特征进行交互,获得相应的商品特征向量,进而根据用户特征向量与商品数据库中各个商品的所述商品特征向量之间的相似度,召回相似度较高的商品,构造为商品集。可见,在双塔模型中的用户分支中,能够保证捕捉与搜索文本相关的历史访问行为,丰富用户在当前搜索下的语义/意图表征,使得所得的用户特征向量能够对搜索文本充分地进行语义表征,有助于匹配更多与用户搜索相关的商品,除此之外,在双塔模型中的商品分支中,能够保证捕捉与商品相关的商品信息,使得所得的商品特征向量能够对商品充分精准地进行语义表征,有助于保证用户特征向量与商品特征向量之间的相似度的准确度,精准召回相似度较高的商品。
请参阅图2,进一步的实施例中,步骤S1200、采用双塔模型中的用户分支获得所述搜索文本与所述历史商品数据序列相对应的特征进行交互生成的用户特征向量的步骤中,包括如下步骤:
步骤S1210、采用多种分词粒度对所述搜索文本进行分词,对应获得不同粒度相对应的分词序列,分别提取各个分词序列的序列特征向量;
采用多种分词粒度对所述搜索文本进行分词,所述多种分词粒度包含单字粒度、多字粒度(字数大于1小于等于3)、分词粒度,从而相对应获得单字粒度序列、多字粒度序列及分词粒度序列。
采用N-Gram分词算法,设置滑动取词窗口N为1,步长为1,对所述搜索文本进行单字粒度的分词,逐步从搜索文本中滑动截取每一个单字构建单字粒度序列。
采用N-Gram分词算法,由于通常分词结果的长度小于3,可设置滑动取词窗口N(1<N<=3),例如N为2,步长为1,对所述搜索文本进行多字粒度的分词,逐步从搜索文本中滑动截取每一个以两个单字组成的文本构建多字粒度序列。
采用jieba分词算法的搜索引擎模式对所述搜索文本进行分词粒度的分词,获得相应的分词。本领域技术人员可以理解,jieba分词的精准模式为对文本信息实施最精准的切分,切分出相应的分词,能够实现该分词中不存在冗余数据,然而所述搜索引擎模式在所述精确模式的基础上,对分词中的长词再次进行切分,使得分词文本的颗粒度更细。
采用编码层对各个分词序列进行相应的编码,获得各个分词序列相对应的编码特征信息,进一步,对各个分词序列相对应的编码特征信息分别进行均值池化,提取出各个分词序列的序列特征向量。所述编码特征信息是将各个分词序列分别映射至编码层的编码词表而获得相对应的映射信息,所述映射信息具体表现为密集矩阵,所述编码词表是通过对编码层进行特征表示学习而得,具体实现可由本领域技术人员按此处揭示按需实现。
步骤S1220、基于所述以分词粒度进行分词获得的分词序列的编码特征信息提取其深层语义信息,获得相应的深层语义向量;
采用Transformer模型的编码器模块对所述以分词粒度进行分词获得的分词序列的编码特征信息分别作为查询向量、键向量、值向量,应用自注意力层进行特征交互,确定编码特征信息中对应各个分词与其他分词之间的相关性,以结合上下文语义深挖出相应的重点语义,继而对模型的最后一层中的隐层向量进行均值池化,由此,提取出分词粒度序列的深层语义信息,获得模型输出的深层语义向量。
步骤S1230、对所述用户的历史搜索行为相对应的历史搜索文本进行分词获得相应的分词序列,提取该分词序列相对应的编码特征信息;
从发送所述用户搜索请求的用户的历史搜索记录中,获取所述用户的历史搜索行为相对应的历史搜索文本,采用分词粒度对历史搜索文本进行分词,获得相应的分词序列,进一步,采用编码层对该分词序列进行编码,提取相对应的编码特征信息。所述历史搜索记录可由电商平台对平台上的各个用户的每次搜索行为所输入的搜索文本进行存储,以备调用。
步骤S1240、将所述搜索文本的以分词粒度进行分词获得的分词序列的序列特征向量作为查询向量,将所述历史搜索文本进行分词获得的分词序列的编码特征信息作为键向量和值向量,通过注意力层查询出所述编码特征信息中的关键特征信息;
具体而言,可将查询向量Q与键向量K分别匹配其各自的可学习权重WQ、WK之后,求点积运算实现特征交互,以当前的所述搜索文本的语义为参考,从键向量K匹配相应的可学习权重WK所得的结果中确定出历史搜索文本中的关键向量,所述关键向量包含表征历史搜索文本与当前的所述搜索文本之间相关的关键特征信息,可采用Softmax函数对该关键向量进行归一化,将其中的特征数值映射至[0,1]的置信区间,获得一个权重向量,用于表征编码特征信息中各个对应特征所享有的相关程度的权重。为了从编码特征信息中提取出关键特征信息,进一步,可将所述权重向量与所述值向量V(如前文所述,可事先按需匹配相应的可学习权重WV),也即所述编码特征信息相乘,实现对所述编码特征信息中的特征值的加权求和,由此便可获得最后的关键特征信息,其中的各个特征数值在权重向量的作用下得到调节,从而实现对所述编码特征信息中的表征历史搜索文本与当前搜索文本之间最相关的关键特征信息的挖掘和表示。
步骤S1250、综合所述序列特征向量、深层语义向量以及关键特征信息,构造出综合特征信息;
将所述单字粒度序列、多字粒度序列及分词粒度序列相对应的序列特征向量、深层语义向量、关键特征信息按元素相加获得混合特征向量,进一步,垂直拼接各个序列特征向量、深层语义向量、关键特征信息以及混合特征向量,构造出综合特征信息。
步骤S1260、提取所述历史商品数据序列对应的个性化行为特征,应用至少一个注意力层对所述个性化行为特征与所述综合特征信息进行交互,获得所述用户特征向量。
采用多头自注意力层提取出所述短期的历史商品数据序列对应的深层语义信息,在深层语义信息中添加全零的向量,获得加零的深层语义信息作为短期的个性化行为特征。另外,对所述用户的历史访问行为是点击、购买及收藏分别对应的长期的历史商品数据序列进行均值池化,获得各个长期的历史商品数据序列相对应的深层语义信息相加,在相加后的深层语义信息中添加全零的向量,获得加零的深层语义信息作为长期的个性化行为特征。进一步,应用注意层对所述短期的个性化行为特征及长期的个性化行为特征分别与所述综合特征信息进行交互,获得短期的个性化行为特征及长期的个性化行为特征分别与综合特征信息最相关的特征信息,将短期的个性化行为特征及长期的个性化行为特征相对应的特征信息,与综合特征信息进行拼接输入至多头自注意力层进行特征交互,获得该多头自注意力层的输出作为用户特征向量。
本实施例中,针对搜索文本在字面上的组织方式多样包含单字粒度、多字粒度、分词粒度,搜索文本的表征方法多样包含均值池化、transformer、注意力机制、垂直拼接等,使得所得的用户特征向量能够对搜索文本充分地进行语义表征,有助于后续匹配更多与用户搜索相关的商品。
请参阅图3,进一步的实施例中,步骤S1260、提取所述历史商品数据序列对应的个性化行为特征,应用至少一个注意力层对所述个性化行为特征与所述综合特征信息进行交互,获得所述用户特征向量,包括如下步骤:
步骤S1261、提取所述历史商品数据序列对应的个性化行为特征,应用注意力层对所述个性化行为特征与所述综合特征信息进行交互,获得关联行为特征;
采用多头自注意力层提取出所述短期的历史商品数据序列对应的深层语义信息,在深层语义信息中添加全零的向量,获得加零的深层语义信息作为短期的个性化行为特征。另外,对所述用户的历史访问行为是点击、购买及收藏分别对应的长期的历史商品数据序列进行均值池化,获得各个长期的历史商品数据序列相对应的深层语义信息进行垂直拼接,在拼接后的深层语义信息中添加全零的向量,获得加零的深层语义信息作为长期的个性化行为特征。
进一步,将所述综合特征信息作为查询向量,将所述短期的个性行为特征作为键向量和值向量,通过注意力层查询出所述短期的个性行为特征中的关联行为特征,其表征与当前用户输入的搜索文本相关的短期的用户的历史访问行为,另外,将所述综合特征信息作为查询向量,将所述长期的个性行为特征作为键向量和值向量,通过注意力层查询出所述长期的个性行为特征中的关联行为特征,其表征与当前用户输入的搜索文本相关的长期的用户的历史访问行为。
步骤S1262、拼接所述关联行为特征与综合特征信息,应用多头自注意力层对该拼接的特征进行特征交互,获得所述用户特征向量。
首位添加[CLS]标识符,拼接所述短期的关联行为特征、长期的关联行为特征及综合特征信息形成输入,以该拼接的特征作为查询向量、键向量、值向量,应用多头子注意力层进行特征交互,获得该多头自注意力层的输出作为用户特征向量。所述[CLS]标识符模仿BERT中的结构,可学习的向量,浓缩信息。
本实施例中,通过多层注意力层将用户的历史访问行为相对应的特征与用户当前输入的搜索文本相对应的特征进行交互,使得保证捕捉与所述搜索文本相关的历史访问行为,丰富用户在当前搜索下的语义/意图表征。此外,对于短期和长期的历史商品数据序列对应的深层语义信息,添加一个全零的向量,来消除潜在噪声和解决用户历史行为和当前搜索可能完全无关的情况。
请参阅图4,进一步的实施例中,步骤S1300、采用双塔模型中的商品分支获得商品数据库中的商品的多维度的商品信息相对应的特征进行交互生成的商品特征向量的步骤中,包括如下步骤:
步骤S1310、采用双塔模型中的商品分支提取所述商品的商品信息中商品标识码、商品标题、商品图片相对应的特征,相应获得标识特征向量、文本特征向量、图片特征向量;
应用编码层对所述商品标识码进行编码,获得相应的编码信息作为标题特征向量。
将商品图片切分为多个等规格的子图,构成子图序列,应用图片编码器对所述子图序列中的各个子图提取深层语义特征,获得由各个子图相对应的特征向量构成的图片特征向量。
应用所述编码层对所述商品标题进行编码,对该编码所得的编码信息进行池化,将池化结果输入至多层感知层提取相应的深层语义信息,获得文本特征向量。
步骤S1320、应用注意力层对所述文本特征向量、图片特征向量进行交互,从所述图片特征向量查询出所述文本特征向量相对应的关联特征向量;
将所述文本特征向量作为查询向量,将所述图片特征向量作为键向量和值向量,应用注意力层进行交互,参考文本特征向量相对应的表征商品的文本特征,从所述图片特征向量查询出所述文本特征向量相对应的关联特征向量,使得保证捕捉与所述商品标题相对应的特征相关的商品图片中相应的特征。
步骤S1330、将所述关联特征向量与标识特征向量相加作为商品特征向量。
将所述关联特征向量与标识特征向量按元素相加获得商品特征向量。
本实施例中,通过对商品的多维度的商品信息分别进行向量化表示,进而采用注意力层对商品图片和商品标题分别对应的向量化表示进行特征交互,将特征交互获得的关联特征向量与商品标识码的向量化表示构造商品特征向量,可知,商品特征向量是综合多维度的商品信息而得,能够对商品充分地进行语义表征,有助于保证后续用户特征向量与商品特征向量之间的相似度的准确性。
请参阅图5,进一步的实施例中,步骤S1310、采用双塔模型中的商品分支提取所述商品的商品信息中商品标识码、商品标题、商品图片相对应的特征,相应获得标识特征向量、文本特征向量、图片特征向量的步骤中,包括如下步骤:
步骤S1311、应用编码层对所述商品标识码进行编码,获得相应的编码信息作为标题特征向量;
从商品数据库中获取存储的商品的商品标识码、商品标题、商品图片。可以理解,商品标识码具备唯一性,针对不同的商品其对应的商品标识码都不同,即商品标识码能够作为区别各个商品与其他商品的一种表示,据此,可以商品标识码为相应商品的特征表示提供一定的支持,应用编码层对商品的商品标识码进行编码,获得向量化表示该商品标识码的编码信息作为标题特征向量。后续可基于所述标题特征向量构造相应商品的特征表示。
步骤S1312、将商品图片切分为多个等规格的子图,构成子图序列;
一个实施例中,采用Vision Transformer作为图片编码器对所述商品的商品图片进行编码,根据Vision Transformer的原理,将商品图片按照预设尺寸,将其切分为多个等规格的子图,从而获得子图序列。
步骤S1313、应用图片编码器对所述子图序列中的各个子图提取深层语义特征,获得由各个子图相对应的特征向量构成的图片特征向量;
所述子图序列输入图片编码器进行特征交互,Vision Transformer是基于自注意力层的编码部件,其通过对各个子图进行深度的特征交互,提取出其中的各个子图相对应的特征向量,拼接这些特征向量构造为图片特征向量,实现对商品图片的编码。
步骤S1314、应用所述编码层对所述商品标题进行编码,对该编码所得的编码信息进行池化,将池化结果输入至多层感知层提取相应的深层语义信息,获得文本特征向量;
所述解码层可以携带一个相应的编码词表,该编码词表可以用于编码文本信息,因而,可以在对商品的商品标题分词获得其中各个词元的基础上,采用该词表查询出商品标题中的各个词元的词向量,拼接这些词向量构造为商品标题的编码信息,实现对商品标题的初步特征表示。可知商品标题通常由关键词堆叠而成,且缺乏语法结构,各个关键词在字面上的语义信息足够凸显,上下文信号较弱,因而不需要复杂的模型来捕捉语义,据此,进一步,可对所述编码信息进行均值池化,将所得的池化结果输入至多层感知层(也叫ANN又名人工神经网络)提取出相应的深层语义信息,获得该多层感知层输出的文本特征向量。
本实施例中,对商品的多维度的商品信息即商品标识码、商品标题、商品图片进行相应的特征提取,获得相应的特征向量,后续可通过所述多维度的商品信息相对应的特征向量构造相应商品的特征表示即商品特征向量,使得丰富商品特征向量包含的语义特征,能够精准地表示商品,有助于确保后续用户特征向量与商品特征向量之间的相似度的准确度。此外,图片编码器在各个子图对应的局部信息的基础上对商品图片进行特征提取,能够以更细粒度获取商品图片的图像语义特征,保证特征提取的准确性。
请参阅图6,进一步的实施例中,步骤S1320、应用注意力层对所述文本特征向量、图片特征向量进行交互,从所述图片特征向量查询出所述文本特征向量相对应的关联特征向量的步骤中,包括如下步骤:
步骤S1321、将所述文本特征向量作为查询向量,将所述图片特征向量作为键向量和值向量,将查询向量与键向量进行交互以确定出商品图片的关键向量;
由于键向量是图片特征向量,是对商品图片的特征表示,而查询向量是文本特征向量,包含对应商品标题的深层语义信息,因而,以注意力层使用多头注意力机制的实施例中,可将查询向量Q与键向量K分别匹配其各自的可学习权重WQ、WK之后,求点积运算实现特征交互,以文本语义为参考,从键向量K匹配相应的可学习权重WK所得的结果中确定出商品图片中的关键向量。
对于注意力层使用单头自注意力机制的实施例,所述查询向量Q无需匹配可学习权重。
步骤S1322、将所述关键向量进行归一化以获得权重向量;
获得所述关键向量后,可采用Softmax函数对其进行归一化,将其中的特征数值映射至[0,1]的置信区间,获得一个权重向量,用于表征图片特征向量中各个对应特征所享有的关键程度的权重。
步骤S1323、将所述权重向量叠加所述值向量获得关联特征向量。
为了从图片特征向量中提取出关键特征,进一步,可将所述权重向量与所述值向量V(如前文所述,可事先按需匹配相应的可学习权重WV),也即所述图片特征向量相乘,实现对所述图片特征向量中的特征值的加权求和,由此便可获得最后的关键特征序列,其中的各个特征数值在权重向量的作用下得到调节,从而实现对商品图片中的关键特征的挖掘和表示。
部分实施例中,无论是基于单头注意力机制还是多头注意力机制,所述值向量V可以直接复用所述键向量K,减少需要学习的权重参数,以便在训练过程中加速模型的收敛速度。不难理解,所述各个可学习权重在图片编码器的训练过程中被反向传播修正,在图片编码器被训练至收敛后得到固化。
本实施例中,注意力层通过参考文本特征向量对图片特征向量执行自注意力运算,实现对商品图片中的关键特征的深度挖掘,获得关键向量,使关键向量可以有效表示商品图片中与商品标题强相关的特征信息,从而可以更为精准地表示相应商品。
请参阅图7,进一步的实施例中,步骤S1400、根据所述用户特征向量与商品数据库中各个商品的所述商品特征向量之间的相似度,召回相似度较高的商品,构造为商品集的步骤中,包括如下步骤:
步骤S1410、计算所述用户特征向量与商品数据库中各个商品的所述商品特征向量之间的点积作为相似度;
本领域技术人员应当知晓,可通过计算出所述用户特征向量与商品数据库中各个商品的所述商品特征向量之间的点积,表征用户特征向量与各个商品特征向量之间的相似度。
步骤S1420、筛选出所述相似度超过预设阈值的商品构造为商品集。
可设置预设阈值以快速筛选出相似度超过该预设阈值的商品,从而以这些商品构造为商品集,所述预设阈值可为经验阈值或实验阈值,具体数值可由本领域技术人员按需设置。
本实施例中,通过计算两两向量之间的点积作为相似度,科学地量化出相似度,使得后续可快速精准地筛选出相似度超过预设阈值的商品。
请参阅图8,适应本申请的目的之一而提供的一种商品搜索装置,是对本申请的商品搜索方法的功能化体现,该装置包括请求响应模块1100、用户分支模块1200、商品分支模块1300以及商品召回模块1400,其中:请求响应模块1100,用于响应用户搜索请求,获取该请求所指向的搜索文本及该用户的历史访问行为相对应的商品的多维度的商品信息,构造历史商品数据序列,所述商品的商品信息包含商品标识码、商品标题及商品图片;用户分支模块1200,用于采用双塔模型中的用户分支获得所述搜索文本与所述历史商品数据序列相对应的特征进行交互生成的用户特征向量;商品分支模块1300,用于采用双塔模型中的商品分支获得商品数据库中的商品的多维度的商品信息相对应的特征进行交互生成的商品特征向量;商品召回模块1400,用于根据所述用户特征向量与商品数据库中各个商品的所述商品特征向量之间的相似度,召回相似度较高的商品,构造为商品集。
进一步的实施例中,所述用户分支模块1200,包括:文本分词子模块,用于采用多种分词粒度对所述搜索文本进行分词,对应获得不同粒度相对应的分词序列,分别提取各个分词序列的序列特征向量;语义提取子模块,用于基于所述以分词粒度进行分词获得的分词序列的编码特征信息提取其深层语义信息,获得相应的深层语义向量;编码特征子模块,用于对所述用户的历史搜索行为相对应的历史搜索文本进行分词获得相应的分词序列,提取该分词序列相对应的编码特征信息;第一注意力子模块,用于将所述搜索文本的以分词粒度进行分词获得的分词序列的序列特征向量作为查询向量,将所述历史搜索文本进行分词获得的分词序列的编码特征信息作为键向量和值向量,通过注意力层查询出所述编码特征信息中的关键特征信息;信息构造子模块,用于综合所述序列特征向量、深层语义向量以及关键特征信息,构造出综合特征信息;第二注意力子模块,用于提取所述历史商品数据序列对应的个性化行为特征,应用至少一个注意力层对所述个性化行为特征与所述综合特征信息进行交互,获得所述用户特征向量。
进一步的实施例中,所述第二注意力子模块,包括:第一特征交互单元,用于提取所述历史商品数据序列对应的个性化行为特征,应用注意力层对所述个性化行为特征与所述综合特征信息进行交互,获得关联行为特征;第二特征交互单元,用于拼接所述关联行为特征与综合特征信息,应用多头自注意力层对该拼接的特征进行特征交互,获得所述用户特征向量。
进一步的实施例中,所述商品分支模块1300,包括:向量化子模块,用于采用双塔模型中的商品分支提取所述商品的商品信息中商品标识码、商品标题、商品图片相对应的特征,相应获得标识特征向量、文本特征向量、图片特征向量;第三注意力子模块,用于应用注意力层对所述文本特征向量、图片特征向量进行交互,从所述图片特征向量查询出所述文本特征向量相对应的关联特征向量;向量相加子模块,用于将所述关联特征向量与标识特征向量相加作为商品特征向量。
进一步的实施例中,所述向量化子模块,包括:第一向量表示单元,用于应用编码层对所述商品标识码进行编码,获得相应的编码信息作为标题特征向量;图片切分单元,用于将商品图片切分为多个等规格的子图,构成子图序列;第二向量表示单元,用于应用图片编码器对所述子图序列中的各个子图提取深层语义特征,获得由各个子图相对应的特征向量构成的图片特征向量;第三向量表示单元,用于应用所述编码层对所述商品标题进行编码,对该编码所得的编码信息进行池化,将池化结果输入至多层感知层提取相应的深层语义信息,获得文本特征向量;
进一步的实施例中,所述第三注意力子模块,包括:第三特征交互单元,用于将所述文本特征向量作为查询向量,将所述图片特征向量作为键向量和值向量,将查询向量与键向量进行交互以确定出商品图片的关键向量;归一处理单元,用于将所述关键向量进行归一化以获得权重向量;特征提取单元,用于将所述权重向量叠加所述值向量获得关联特征向量。
进一步的实施例中,所述商品召回模块1400,包括:相似度计算子模块,用于计算所述用户特征向量与商品数据库中各个商品的所述商品特征向量之间的点积作为相似度;商品筛选子模块,用于筛选出所述相似度超过预设阈值的商品构造为商品集。
为解决上述技术问题,本申请实施例还提供计算机设备。如图9所示,计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中,该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种商品搜索方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行本申请的商品搜索方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图8中的各个模块及其子模块的具体功能,存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请的商品搜索装置中执行所有模块/子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
本申请还提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行本申请任一实施例的商品搜索方法的步骤。
本领域普通技术人员可以理解实现本申请上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等计算机可读存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
综上所述,能够精准表示商品与用户输入的搜索关键词之间的相关性,使得搜索到更多相关的商品,合理地增加商品的曝光率。
本技术领域技术人员可以理解,本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种商品搜索方法,其特征在于,包括如下步骤:
响应用户搜索请求,获取该请求所指向的搜索文本及该用户的历史访问行为相对应的商品的多维度的商品信息,构造历史商品数据序列,所述商品的商品信息包含商品标识码、商品标题及商品图片;
采用双塔模型中的用户分支获得所述搜索文本与所述历史商品数据序列相对应的特征进行交互生成的用户特征向量;
采用双塔模型中的商品分支获得商品数据库中的商品的多维度的商品信息相对应的特征进行交互生成的商品特征向量;
根据所述用户特征向量与商品数据库中各个商品的所述商品特征向量之间的相似度,召回相似度较高的商品,构造为商品集。
2.根据权利要求1所述的商品搜索方法,其特征在于,采用双塔模型中的用户分支获得所述搜索文本与所述历史商品数据序列相对应的特征进行交互生成的用户特征向量的步骤中,包括如下步骤:
采用多种分词粒度对所述搜索文本进行分词,对应获得不同粒度相对应的分词序列,分别提取各个分词序列的序列特征向量;
基于所述以分词粒度进行分词获得的分词序列的编码特征信息提取其深层语义信息,获得相应的深层语义向量;
对所述用户的历史搜索行为相对应的历史搜索文本进行分词获得相应的分词序列,提取该分词序列相对应的编码特征信息;
将所述搜索文本的以分词粒度进行分词获得的分词序列的序列特征向量作为查询向量,将所述历史搜索文本进行分词获得的分词序列的编码特征信息作为键向量和值向量,通过注意力层查询出所述编码特征信息中的关键特征信息;
综合所述序列特征向量、深层语义向量以及关键特征信息,构造出综合特征信息;
提取所述历史商品数据序列对应的个性化行为特征,应用至少一个注意力层对所述个性化行为特征与所述综合特征信息进行交互,获得所述用户特征向量。
3.根据权利要求2所述的商品搜索方法,其特征在于,提取所述历史商品数据序列对应的个性化行为特征,应用至少一个注意力层对所述个性化行为特征与所述综合特征信息进行交互,获得所述用户特征向量,包括如下步骤:
提取所述历史商品数据序列对应的个性化行为特征,应用注意力层对所述个性化行为特征与所述综合特征信息进行交互,获得关联行为特征;
拼接所述关联行为特征与综合特征信息,应用多头自注意力层对该拼接的特征进行特征交互,获得所述用户特征向量。
4.根据权利要求1所述的商品搜索方法,其特征在于,采用双塔模型中的商品分支获得商品数据库中的商品的多维度的商品信息相对应的特征进行交互生成的商品特征向量的步骤中,包括如下步骤:
采用双塔模型中的商品分支提取所述商品的商品信息中商品标识码、商品标题、商品图片相对应的特征,相应获得标识特征向量、文本特征向量、图片特征向量;
应用注意力层对所述文本特征向量、图片特征向量进行交互,从所述图片特征向量查询出所述文本特征向量相对应的关联特征向量;
将所述关联特征向量与标识特征向量相加作为商品特征向量。
5.根据权利要求4所述的商品搜索方法,其特征在于,采用双塔模型中的商品分支提取所述商品的商品信息中商品标识码、商品标题、商品图片相对应的特征,相应获得标识特征向量、文本特征向量、图片特征向量的步骤中,包括如下步骤:
应用编码层对所述商品标识码进行编码,获得相应的编码信息作为标题特征向量;
将商品图片切分为多个等规格的子图,构成子图序列;
应用图片编码器对所述子图序列中的各个子图提取深层语义特征,获得由各个子图相对应的特征向量构成的图片特征向量;
应用所述编码层对所述商品标题进行编码,对该编码所得的编码信息进行池化,将池化结果输入至多层感知层提取相应的深层语义信息,获得文本特征向量。
6.根据权利要求4所述的商品搜索方法,其特征在于,应用注意力层对所述文本特征向量、图片特征向量进行交互,从所述图片特征向量查询出所述文本特征向量相对应的关联特征向量的步骤中,包括如下步骤:
将所述文本特征向量作为查询向量,将所述图片特征向量作为键向量和值向量,将查询向量与键向量进行交互以确定出商品图片的关键向量;
将所述关键向量进行归一化以获得权重向量;
将所述权重向量叠加所述值向量获得关联特征向量。
7.根据权利要求1所述的商品搜索方法,其特征在于,根据所述用户特征向量与商品数据库中各个商品的所述商品特征向量之间的相似度,召回相似度较高的商品,构造为商品集的步骤中,包括如下步骤:
计算所述用户特征向量与商品数据库中各个商品的所述商品特征向量之间的点积作为相似度;
筛选出所述相似度超过预设阈值的商品构造为商品集。
8.一种商品搜索装置,其特征在于,包括:
请求响应模块,用于响应用户搜索请求,获取该请求所指向的搜索文本及该用户的历史访问行为相对应的商品的多维度的商品信息,构造历史商品数据序列,所述商品的商品信息包含商品标识码、商品标题及商品图片;
用户分支模块,用于采用双塔模型中的用户分支获得所述搜索文本与所述历史商品数据序列相对应的特征进行交互生成的用户特征向量;
商品分支模块,用于采用双塔模型中的商品分支获得商品数据库中的商品的多维度的商品信息相对应的特征进行交互生成的商品特征向量;
商品召回模块,用于根据所述用户特征向量与商品数据库中各个商品的所述商品特征向量之间的相似度,召回相似度较高的商品,构造为商品集。
9.一种计算机设备,包括中央处理器和存储器,其特征在于,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,其以计算机可读指令的形式存储有依据权利要求1至7中任意一项所述的方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行相应的方法所包括的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210986655.5A CN115292603A (zh) | 2022-08-17 | 2022-08-17 | 商品搜索方法及其装置、设备、介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210986655.5A CN115292603A (zh) | 2022-08-17 | 2022-08-17 | 商品搜索方法及其装置、设备、介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115292603A true CN115292603A (zh) | 2022-11-04 |
Family
ID=83830218
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210986655.5A Pending CN115292603A (zh) | 2022-08-17 | 2022-08-17 | 商品搜索方法及其装置、设备、介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115292603A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116991980A (zh) * | 2023-09-27 | 2023-11-03 | 腾讯科技(深圳)有限公司 | 文本筛选模型训练方法及相关方法、装置、介质及设备 |
-
2022
- 2022-08-17 CN CN202210986655.5A patent/CN115292603A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116991980A (zh) * | 2023-09-27 | 2023-11-03 | 腾讯科技(深圳)有限公司 | 文本筛选模型训练方法及相关方法、装置、介质及设备 |
CN116991980B (zh) * | 2023-09-27 | 2024-01-19 | 腾讯科技(深圳)有限公司 | 文本筛选模型训练方法及相关方法、装置、介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113837102B (zh) | 图文融合分类方法及其装置、设备、介质、产品 | |
CN113869048A (zh) | 商品对象搜索方法及其装置、设备、介质、产品 | |
CN113806588B (zh) | 搜索视频的方法和装置 | |
CN114065750A (zh) | 商品信息匹配、发布方法及其装置、设备、介质、产品 | |
CN116521906B (zh) | 元描述生成方法及其装置、设备、介质 | |
CN115731425A (zh) | 商品分类方法及其装置、设备、介质 | |
CN113962773A (zh) | 同款商品聚合方法及其装置、设备、介质、产品 | |
CN115018549A (zh) | 广告文案生成方法及其装置、设备、介质、产品 | |
CN114898349A (zh) | 目标商品识别方法及其装置、设备、介质、产品 | |
CN115689672A (zh) | 聊天式商品导购方法及其装置、设备、介质 | |
CN115545832A (zh) | 商品搜索推荐方法及其装置、设备、介质 | |
CN114818674A (zh) | 商品标题关键词提取方法及其装置、设备、介质、产品 | |
CN113792786A (zh) | 商品对象自动分类方法及其装置、设备、介质、产品 | |
CN115129913A (zh) | 敏感词挖掘方法及其装置、设备、介质 | |
CN114626926A (zh) | 商品搜索类目识别方法及其装置、设备、介质、产品 | |
CN115099854A (zh) | 广告文案创作方法及其装置、设备、介质、产品 | |
CN114218426A (zh) | 音乐视频推荐方法及其装置、设备、介质、产品 | |
CN115292603A (zh) | 商品搜索方法及其装置、设备、介质 | |
CN114218948A (zh) | 关键词识别方法及其装置、设备、介质、产品 | |
CN115907928A (zh) | 商品推荐方法及其装置、设备、介质 | |
CN116823404A (zh) | 商品组合推荐方法及其装置、设备、介质 | |
CN115018548A (zh) | 广告文案预测方法及其装置、设备、介质、产品 | |
CN114782142A (zh) | 商品信息匹配方法及其装置、设备、介质、产品 | |
CN113806536B (zh) | 文本分类方法及其装置、设备、介质、产品 | |
CN115563280A (zh) | 商品标签标注方法及其装置、设备、介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |