CN113947456A - 线上商铺匹配方法及其装置、设备、介质、产品 - Google Patents
线上商铺匹配方法及其装置、设备、介质、产品 Download PDFInfo
- Publication number
- CN113947456A CN113947456A CN202111213958.5A CN202111213958A CN113947456A CN 113947456 A CN113947456 A CN 113947456A CN 202111213958 A CN202111213958 A CN 202111213958A CN 113947456 A CN113947456 A CN 113947456A
- Authority
- CN
- China
- Prior art keywords
- commodity
- shop
- word
- objects
- price
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 239000013598 vector Substances 0.000 claims description 83
- 238000004422 calculation algorithm Methods 0.000 claims description 44
- 238000004364 calculation method Methods 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 17
- 238000012163 sequencing technique Methods 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 11
- 230000004044 response Effects 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 description 55
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000014509 gene expression Effects 0.000 description 8
- 238000013507 mapping Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 6
- 238000010276 construction Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 229940075065 polyvinyl acetate Drugs 0.000 description 1
- 239000011118 polyvinyl acetate Substances 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开一种线上商铺匹配方法及其装置、设备、介质、产品,所述方法包括:获取多个商铺对象各自对应的商品标题文本集以及商品价格集;根据该些商铺对象各自对应的所述商品标题文本集,分别为各商铺对象生成商品分词词袋;计算两两商铺对象之间的相似度数据,所述相似度数据为根据两个商铺对象的商品分词词袋之间的词移距离数据及所述商品价格集之间的距离数据的加权结果所确定;响应商铺匹配指令,根据所述相似度数据为该指令指定的目标商铺对象查询确定其相应的若干个相似商铺对象。本申请从商铺的商品标题及商品价格进行精确地相似商铺的匹配,以向用户提供更精准地相似商铺推荐服务,提升用户的电商购物体验。
Description
技术领域
本申请涉及电商信息技术领域,尤其涉及一种线上商铺匹配方法,此外还涉及该方法相应的装置、设备、非易失性存储介质以及计算机程序产品。
背景技术
如今的电商购物平台中往往会向平台用户提供相似商铺推荐服务,以向平台用户推荐与其先前进入或先前消费的商铺相似的商铺进行消费,即根据平台用户的消费行为,为其提供相应的商铺进行消费,进而提升用户在电商购物平台中的购物体验。
但如今的相似商铺推荐服务的相似商铺匹配逻辑,通过仅参考商铺的一个属性进行商铺的匹配,例如商铺的名称,商铺的销量等数据,这种情况下,忽视了商铺所拥有的多个属性,使向平台用户推送的相似商铺并不一定符合用户的消费习惯,使得相似商铺推荐服务并无法有效地提升用户得消费体验。
有鉴于此,电商平台中的相似商铺推荐服务的技术仍有挖掘的空间,本申请人长期专注于相关领域的研发,因而对此做出相应的探索。
发明内容
本申请的目的在于满足用户需求而提供一种线上商铺匹配方法,此外还涉及该方法相应的装置、设备、非易失性存储介质以及计算机程序产品。
为实现本申请的目的,采用如下技术方案:
适应本申请的目的而提出的一种线上商铺匹配方法,包括如下步骤:
获取多个商铺对象各自对应的商品标题文本集以及商品价格集,所述商品标题文本集中包含多个商品标题文本;
根据该些商铺对象各自对应的所述商品标题文本集,分别为各商铺对象生成商品分词词袋,所述商品分词词袋中包含多个商品分词的分词向量及其词频占比,所述商品分词从商品标题文本中提取所得;
计算两两商铺对象之间的相似度数据,所述相似度数据为根据两个商铺对象的商品分词词袋之间的词移距离数据及所述商品价格集之间的距离数据的加权结果所确定;
响应商铺匹配指令,根据所述相似度数据为该指令指定的目标商铺对象查询确定其相应的若干个相似商铺对象。
进一步的实施例中,根据该些商铺对象各自对应的所述商品标题文本集,分别为各商铺对象生成商品分词词袋的步骤,包括:
提取商铺对象的商品标题文本集中多个商品标题文本各自包含的商品分词,并将该些商品分词储存至商品分词表中;
统计所述商品分词表中所有商品分词各自的词频,并对该些商品分词的词频进行归一化,以获取各商品分词的词频占比;
将所有商品分词转换为分词向量,以为所述商铺对象构造包含该些分词向量及其关联的词频占比的所述商品分词词袋。
进一步的实施例中,计算两两商铺对象之间的相似度数据,所述相似度数据为根据两个商铺对象的商品分词词袋之间的词移距离数据及所述商品价格集之间的距离数据的加权结果所确定的步骤,包括:
调用词移距离算法,计算第一商铺对象的第一商品分词词袋与第二商铺对象的第二商品分词词袋的所述词移距离数据;
调用欧式距离算法,计算第一商铺对象的第一商品价格集与第二商铺对象的第二商品价格集的所述距离数据;
对所述词移距离数据及所述距离数据进行加权计算,获取加权结果作为第一商铺对象及第二商铺对象的所述相似度数据。
较佳的实施例中,调用欧式距离算法,计算第一商铺对象的第一商品价格集与第二商铺对象的第二商品价格集的所述距离数据的步骤,包括:
计算第一商品价格集及第二商品价格集中各商品价格的平均数及分位数,以生成所述第一商铺对象的第一价格指标集及所述第二商铺对象的的第一价格指标集,所述价格指标集中包含其所述平均数及多个所述分位数;
调用最小最大标准化算法,以对所述第一价格指标集及第一价格指标集分别进行归一化处理,获取所述第一商铺对象的第一价格向量及所述第二商铺对象的第二价格向量;
调用欧式距离算法对所述第一价格向量及第二价格向量进行距离计算,以获取第一商铺对象与第二商铺对象的所述距离数据。
进一步的实施例中,计算两两商铺对象之间的相似度数据的步骤中,构造用于存储所述相似度数据的相似度矩阵,其中每个元素用于存储其行坐标所指向的商铺对象与其列坐标所指向的商铺对象之间的相似度数据。
进一步的实施例中,响应商铺匹配指令,根据所述相似度数据为该指令指定的目标商铺对象查询确定其相应的若干个相似商铺对象:
响应所述商铺匹配指令,确定该指令所指向的目标商铺对象;
获取与所述目标商铺对象映射到所有商铺对象的相似度数据,并对该些相似度数据进行排序,以获取相应的排序结果;
从所述排序结果中选取预设数量的若干个相似度数据最大的相似商铺对象;
将所述相似商铺对象推送给触发所述商品匹配指令的客户端。
适应本申请的目的而提出的一种线上商铺匹配装置,其包括:
商铺对象获取模块,用于获取多个商铺对象各自对应的商品标题文本集以及商品价格集,所述商品标题文本集中包含多个商品标题文本;
分词词袋生成模块,用于根据该些商铺对象各自对应的所述商品标题文本集,分别为各商铺对象生成商品分词词袋,所述商品分词词袋中包含多个商品分词的分词向量及其词频占比,所述商品分词从商品标题文本中提取所得;
相似度计算模块,用于计算两两商铺对象之间的相似度数据,所述相似度数据为根据两个商铺对象的商品分词词袋之间的词移距离数据及所述商品价格集之间的距离数据的加权结果所确定;
匹配指令响应模块,用于响应商铺匹配指令,根据所述相似度数据为该指令指定的目标商铺对象查询确定其相应的若干个相似商铺对象。
进一步的实施例中,所述的分词词袋生成模块包括:
商品分词提取子模块,用于提取商铺对象的商品标题文本集中多个商品标题文本各自包含的商品分词,并将该些商品分词储存至商品分词表中;
词频占比确定子模块,用于统计所述商品分词表中所有商品分词各自的词频,并对该些商品分词的词频进行归一化,以获取各商品分词的词频占比;
分词词袋构造子模块,用于将所有商品分词转换为分词向量,以为所述商铺对象构造包含该些分词向量及其关联的词频占比的所述商品分词词袋。
进一步的实施例中,所述的相似度计算模块包括:
词移距离数据计算子模块,用于调用词移距离算法,计算第一商铺对象的第一商品分词词袋与第二商铺对象的第二商品分词词袋的所述词移距离数据;
距离数据计算子模块,用于调用欧式距离算法,计算第一商铺对象的第一商品价格集与第二商铺对象的第二商品价格集的所述距离数据;
相似度数据计算子模块,用于对所述词移距离数据及所述距离数据进行加权计算,获取加权结果作为第一商铺对象及第二商铺对象的所述相似度数据。
进一步的实施例中,所述的匹配指令响应模块包括:
匹配指令响应子模块,用于响应所述商铺匹配指令,确定该指令所指向的目标商铺对象;
排序结果获取子模块,用于获取与所述目标商铺对象映射到所有商铺对象的相似度数据,并对该些相似度数据进行排序,以获取相应的排序结果;
相似商铺对象选定子模块,用于从所述排序结果中选取预设数量的若干个相似度数据最大的相似商铺对象;
相似商铺对象推送子模块,用于将所述相似商铺对象推送给触发所述商品匹配指令的客户端。
为解决上述技术问题本申请实施例还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述所述线上商铺匹配方法的步骤。
为解决上述技术问题本申请实施例还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述所述线上商铺匹配方法的步骤。
为解决上述技术问题本申请实施例还提供一种计算机程序产品,包括计算机程序及计算机指令,该计算机程序及计算机指令被处理器执行时,使得所述处理器执行上述所述线上商铺匹配方法的步骤。
相对于现有技术,本申请的优势如下:
本申请的相似商品推荐服务的商铺匹配逻辑中,深入到商铺上线的所有商品的商品标题及商品价格确定电商购物平台中各商铺的相似度,进而根据商铺与各商铺的相似度确定与该商铺相似的相似商铺进行推荐,参考商铺多维的属性进行商铺的匹配,可有效地提升匹配的精确性,以符合平台用户的消费效果进行相似商铺的推荐,更匹配用户需求逻辑,使向平台用户提供的相似商铺推荐服务更容易直达用户的真实需求所对应的商铺,以进一步还能提升所推荐的相似商铺对象的商品点击率及相似商铺的交易成交率。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为实施本申请的技术方案相关的一种典型的网络部署架构示意图;
图2为本申请的线上商铺匹配方法的典型实施例的流程示意图;
图3为本申请中关于为商品对象生成商品分词词袋的具体实施例所形成的流程示意图;
图4为本申请中关于计算两两商铺对象之间的相似度数据的具体实施例所形成的流程示意图;
图5为本申请中关于计算两两商品对象的商品价格集之间的距离数据的具体实施例所形成的流程示意图;
图6为本申请中关于响应商品匹配指令的具体实施例所形成的流程示意图;
图7为本申请的线上商铺匹配装置的典型实施例的原理框图;
图8为本申请一个实施例的计算机设备的基本结构框图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他诸如个人计算机、平板电脑之类的通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(PersonalCommunications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem,全球定位系统)接收器;传统膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的传统膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件,本质上是具备个人计算机等效能力的电子设备,为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置,计算机程序存储于其存储器中,中央处理器将存储在外存中的程序调入内存中运行,执行程序中的指令,与输入输出设备交互,借此完成特定的功能。
需要指出的是,本申请所称的“服务器”这一概念,同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理,所述各服务器应是逻辑上的划分,在物理空间上,这些服务器既可以是互相独立但可通过接口调用的,也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通,而不应以此约束本申请的网络部署方式的实施方式。
请参阅图1,本申请相关技术方案实施时所需的硬件基础可按图中所示的架构进行部署。本申请所称服务器80部署在云端,作为一个业务服务器,其可以负责进一步连接起相关数据服务器以及其他提供相关支持的服务器等,以此构成逻辑上相关联的服务机群,来为相关的终端设备例如图中所示的智能手机81和个人计算机82或者第三方服务器(未图示)提供服务。所述的智能手机和个人计算机均可通过公知的网络接入方式接入互联网,与云端的服务器80建立数据通信链路,以便运行所述服务器所提供的服务相关的终端应用程序。
对于服务器而言,所述的应用程序通常会被构建为服务进程,开放相应的程序接口,供各种终端设备上运行的应用程序进行远程调用,本申请中适于运行于服务器的相关技术方案,便可以此种方式实现于服务器中。
所述的应用程序,是指运行于服务器或终端设备上的应用程序,这一应用程序采用编程的方式实现了本申请的相关技术方案,其程序代码可被以计算机可执行指令的形式保存于计算机能识别的非易失性存储介质中,并被中央处理器调入内存中运行,通过该应用程序在计算机的运行而构造出本申请的相关装置。
对于服务器而言,所述的应用程序通常会被构建为服务进程,开放相应的程序接口,供各种终端设备上运行的应用程序进行远程调用,本申请中适于运行于服务器的相关技术方案,便可以此种方式实现于服务器中。
本领域技术人员对此应当知晓:本申请的各种方法,虽然基于相同的概念而进行描述而使其彼此间呈现共通性,但是,除非特别说明,否则这些方法都是可以独立执行的。同理,对于本申请所揭示的各个实施例而言,均基于同一发明构思而提出,因此,对于相同表述的概念,以及尽管概念表述不同但仅是为了方便而适当变换的概念,应被等同理解。
请参阅图2,本申请的一种线上商铺匹配方法,在其典型实施例中,其包括如下步骤:
步骤S11,获取多个商铺对象各自对应的商品标题文本集以及商品价格集,所述商品标题文本集中包含多个商品标题文本:
服务器从储存商铺对象的数据库中,获取多个所述商铺对象的所述商品标题文本集以及所述商品价格集,以根据该些商铺对象各自的商品标题文本及商品价格计算各商品对象之间的相似度数据。
所述的商铺对象一般是指某一电商平台下的电商商铺,各所述商铺对象中拥有其自身上线的商品对象,各所述商品对象中包含商品标题文本及商品价格等商品信息,服务器通过收集电商平台下各商铺对象自身上线的商铺对象的商品标题文本及商品价格,组建各所述商铺对象的包含多个商品对象的商品标题文本的所述商品标题文本集,以及组建各商铺对象的包含多个商品对象的商品价格的所述商品价格集。
可以理解,所述的商品标题文本集中包含商铺对象旗下的多个商品对象的商品标题文本,各所述商品标题文本中一般包含多个商品分词以用于表征其对应的商品特征,相对应的,所述的商品价格集中包含商铺对象旗下的多个商品对象的商品价格。
服务器收集多个所述商铺对象各自对应的所述商品标题文本集以及所述商品价格集后,将通过生成各所述商铺对象的商品分词词袋,以计算两两商铺对象的商品分词词袋之间的词移距离数据以及两两商铺对象的所述商品价格集之间的距离数据,进而对所述词移距离数据及距离数据进行加权计算,获取两两商铺对象之间的相似度数据,即通过各商铺对象所上线的商品对象的商品信息确定商品对象之间的相似度,以向平台用户推送其当前进入或购物的商铺对象相似的其他商铺对象,优化用户的电商购物体验;关于所述商品分词词袋、所述词移距离数据、所述距离数据及所述相似度数据的具体实施方式,请参考后续步骤中相关的实施方式,本步骤恕不赘述。
步骤S12,根据该些商铺对象各自对应的所述商品标题文本集,分别为各商铺对象生成商品分词词袋,所述商品分词词袋中包含多个商品分词的分词向量及其词频占比,所述商品分词从商品标题文本中提取所得:
服务器获取各商铺对象各自相对应的所述商品标题文本集后,根据各所述商品对象所对应的所述商品标题文本集中包含的各所述商品标题文本,分别为各商铺对象生成所述商品分词词袋。
所述的商品分词词袋中包含商品标题文本集中内所有商品标题文本的商品分词的词频占比及其分词向量的映射关系数据,各所述商品分词词袋与其关联的商品对象一一对应,以所述商品分词词袋为其对应的商铺对象的所有商品标题文本所拥有的商品分词的词频占比及其分词向量的映射关系数据。
所述的商品分词是通过提取所述商品标题文本集中所有商品标题文本所包含的分词所得,一般通过使用对商品标题文本进行分词处理,且去除商品标题文本中的数字、特殊符号、停用词及空格等预处理后,所获取的商品标题文本中用于表征其关联的商品对象的商品分词,例如,当所述商品标题文本为“2021Compression Socks for Men&Women”,对该商品标题文本进行分词处理后,将获取的分词包括[2021、Compression、Socks、for、Men、&、Women],对该些分词进行所述预处理后,获取该商品标题文本的所述商品分词为[Compression、Socks、Men、Women]。
在计算机语言中,所述的商品分词词袋即为nBow(normalized bag-of-words),商品分词词袋将所述商品分词的词频占比作为权重,对所述商品分词进行word2vec、glove等的训练方法转换成表征为稠密向量的分词向量。
具体的,关于所述商品分词的所述词频占比,一般是先统计商品分词在其对应的商品标题文本集的所有商品分词的词频,再统计该词频在该些商品分词的词频的占比,以获取该商品分词的所述词频占比,具体的计算公式为:
其中,m为所述商品标题文本集中所有所述商品分词的数量,c为商品分词的所述词频,f为该商品分词的所述词频占比。
所述的分词向量一般是指商品分词通过word2vec、glove、BERT等的训练方法转换成表征为稠密向量的分词向量,以表征商品分词的语义特征信息。
获取某一商铺对象的所述商品标题文本集中所有商品分词各自对应的所述词频占比及分词向量后,对该些商品分词的所述词频占比及分词向量进行归一化处理,以构建该商铺对象的所述商品分词词袋,所述商品分词词袋的向量表征为{(f1,v1),(f2,v2),…,(fm,vm)+,其中,f如上述所述,为商品分词的所述词频占比,v为商品分词的所述分词向量。
步骤S13,计算两两商铺对象之间的相似度数据,所述相似度数据为根据两个商铺对象的商品分词词袋之间的词移距离数据及所述商品价格集之间的距离数据的加权结果所确定:
服务器为各所述商品对象生成各自对应的所述商品分词词袋后,将计算该些商铺对象中每两个商铺对象之间的商品分词词袋之间的词移距离数据及所述商品价格集之间的距离数据的加权结果,以确定两个商铺对象的所述相似度数据。
关于两个所述商铺对象的商品分词词袋之间的所述词移距离数据,一般为服务器通过词移距离算法(Word Mover’s Distance)所计算获取,服务器根据所述词移距离算法,计算第一商铺对象的商品分词词袋中所有分词向量与第二商品对象的商品分词词袋中所有分词向量的词移距离,具体的算法表达式为:
c(i,j)=‖xi-xj‖2
其中,xi及xj分别表示第一商铺对象的分词向量及第二商铺对象的分词向量,c(i,j)表示第一商铺对象的分词向量与第二商铺对象的分词向量之间的所述词移距离。
第一商铺对象的分词向量与第二商铺对象的分词向量之间的所述词移距离后,求第一商铺对象的商品分词词袋中所有分词向量与第二商铺对象的商铺分词词袋中所有分词向量相互之间的所述词移距离的累加和最小值,即将第一商铺对象的商品分词词袋中所有分词向量全部转移至第二商铺对象的商铺分词词袋中所有分词向量,以及第二商铺对象的商品分词词袋中所有分词向量全部转移至第一商铺对象的商铺分词词袋中所有分词向量,最终将所述累加和的最小值即为两两商铺对象的所述商铺分词词袋之间的所述词移距离数据。
在计算两个商铺对象的所述商品价格集之间的所述距离数据之间,服务器将对所述价格集进行预处理,通过计算任意商品对象的所述商品价格集中各商品价格的平均数及分位数,以生成包含所述平均数及多个所述分位数的价格指标集,之后调用最小最大标准化算法,以对所述价格指标集进行归一化处理,获取所述商铺对象的价格向量,以完成该商品对象的商品价格集的预处理。
服务器完成两两商品对象的所述商品价格集的预处理后,将调用欧式距离算法对所述第一价格向量及第二价格向量进行距离计算,以获取第一商铺对象与第二商铺对象的所述距离数据。
一种实施例中,服务器获取第一商铺对象及第二商铺对象的商品分词词袋之间的所述词移距离数据及商品价格集之间的所述距离数据后,将采用相应的统计变换函数对所述词移距离数据及所述距离数据进行统计变换处理,例如,采用对数变换或Box-Cox,对所述词移距离数据及所述距离数据进行处理,使所述词移距离数据及所述距离数据中原本密集区间的数据更分散,原本分散区间的数据更聚合,以使所述词移距离数据及所述距离数据中的数据更接近正态分布,便于后续第一商品对象及第二商品对象的所述相似度数据计算。
服务器获取第一商铺对象及第二商铺对象的商品分词词袋之间的所述词移距离数据及商品价格集之间的所述距离数据后,将采用加权算法,计算所述词移距离数据及商品价格集,以获取第一商铺对象与第二商铺对象的所述相似度数据,具体的,先对所述词移距离数据及距离数据分别采用最小最大标准化,以将双方映射至0-1的区间中,获取所述词移距离数据及距离数据各自对应的映射数据,之后采用预设的超参数对所述词移距离数据的映射数据及所述距离数据的映射数据进行计算,获取第一商铺对象与第二商铺对象的相似度数据。
服务器获取每两个商铺对象之间的所述相似度数据后,将构造用于存储该些相似度数据的相似度矩阵,其中每个元素用于存储其行坐标所指向的商铺对象与其列坐标所指向的商铺对象之间的相似度数据,以便于引用所述的相似度数据,建构一个二维矩阵[i:[j:simi,j,k:simi,k]…],sim即为两个商铺对象之间的所述相似度数据,该矩阵的行坐标与列坐标均按序指代各所述商铺对象,由此,构成一个方阵,其中每个元素即用于存储其行坐标和列坐标分别指向的两个商铺对象之间的所述相似度数据,后续通过引用这个二维矩阵的元素,便可获得相应的两个商铺对象关的相似度数据,可以理解,其中每一个行向量,即存储一个商铺对象与商铺数据库中所有商品对象之间的相似度数据,当要需确定某一商铺对象的相似商品对象时,从其行向量中进行相似度匹配即可。
步骤S14,响应商铺匹配指令,根据所述相似度数据为该指令指定的目标商铺对象查询确定其相应的若干个相似商铺对象:
服务器响应所述商铺匹配指令,确定该商铺匹配指令所指向的目标商铺对象,以根据该目标商铺对象与各商铺对象的所述相似度数据,确定该目标商铺对象的一个或多个相似商铺对象进行推送。
所述的商铺匹配指令一般由客户端所推送,以便获取其当前所处的商铺对象或当前进行消费的商铺对象的所述相似商铺对象进行相似商铺推荐在线服务,服务器响应客户端推送的所述商铺匹配指令,确定该指令所指向的目标商铺对象,获取与所述目标商铺对象映射到所有商铺对象的相似度数据,并对该些相似度数据进行排序,以获取相应的排序结果,从所述排序结果中选取预设数量的若干个相似度数据最大的相似商铺对象,以将该些所述相似商铺对象推送给触发所述商品匹配指令的客户端中输出显示,刺激客户端的用户进入该写相似商铺对象中进行消费。
一种实施例中,服务器可通过所述相似度矩阵,查询所述目标商铺对象与各商铺对象的所述相似度数据,在所述相似度矩阵中查询所述目标商铺对象相对应的行向量(或列向量),然后对应获得其中各个元素的列坐标所指向的商铺对象,根据各元素的相似度数据对这些商铺对象进行排行后择优作为相似商铺对象,即完成了对该指令所指定的目标商铺对象的相似商铺对象的匹配过程,最终可将这些相似商铺对象递交至推送所述商铺匹配指令的客户端中。
一种实施例中,所述商铺匹配指令中包含目标相似度数据,服务器确定该商铺匹配指令所指向的目标商铺对象,将查询该目标商铺对象与其他各个商铺对象中相似度数据超过所述目标相似度数据的一个或多个商铺对象,以将该些商铺对象作为所述相似商铺对象进行推送。
通过本典型实施例的揭示可知,本申请通过每两个商铺对象之间的所述词移距离数据及所述距离数据确定双方的相似度数据,即依照每两个商铺对象所线上的商品对象的商品标题文本及商品价格,确定两个商品对象之间的相似度,为电商平台确定旗下的各商铺之间的相似度,此相似度数据参考了商铺对象所线上的商品的标题文本及价格的数据信息,多维地确定两两商铺对象之间的相似度,在此基础上,利用该相似度数据为一个商铺对象匹配相似商铺对象,更匹配用户需求逻辑,以便为平台中的用户提供相似商铺推荐在线服务,使用户更容易直达其真实需求相对应的商铺,进一步还能提升所推荐的相似商铺对象的商品点击率和交易成交率。
以上的典型实施例及其变化实施例充分揭示了本申请的线上商铺匹配方法的实施方案,但是,仍可通过对一些技术手段的变换和扩增而演绎出该方法的多种变化实施例,如下概要说明其他实施例:
请参考图3,根据该些商铺对象各自对应的所述商品标题文本集,分别为各商铺对象生成商品分词词袋的步骤,包括:
步骤S121,提取商铺对象的商品标题文本集中多个商品标题文本各自包含的商品分词,并将该些商品分词储存至商品分词表中:
服务器获取商铺对象的所述商品标题文本集中的多个商品标题文本,以提取该些商品标题文本各自包含的商品分词,进而构造储存该些商品分词的商品分词表。
服务器调用分词器,提取所述商品标题文本集中多个商品标题文本执行分词处理,以从该些商品标题文本中获取多个商品分词,关于分词器的选择,当所述商品标题文本为中文文本时,选择面向于中文领域的LTP分词器、THULAC分词器、jieba分词器或KCWS分词器对所述商品标题文本进行分词,以初步获得所述商品标题文本中包含的所有商品分词,若所述商品标题文本为英文文本时,则可通过去除空格及非英文的特殊字符以获取其所包含的商品分词,或选择相应的面向英文领域的分词器,例如,spacy的largemodel作为分词器。本领域技术人员可根据实际业务场景选择现有的分词器进行分词,恕不赘述。
步骤S122,统计所述商品分词表中所有商品分词各自的词频,并对该些商品分词的词频进行归一化,以获取各商品分词的词频占比:
服务器完成所述商品分词表的构造后,将统计该商品分词表中所有商品分词在商品分词表中的词频,并对该些商品分词额词频进行归一化处理,以回去个商品分词的所述词频占比。
所述的词频是指商品分词在所述商品分词表中存在的数量,所述的词频占比是指商品分词的词频在其他所有商品分词的词频中的占比,具体的算法表达式为:
其中,c为商品分词的词频,f为商品分词的词频占比。
步骤S123,将所有商品分词转换为分词向量,以为所述商铺对象构造包含该些分词向量及其关联的词频占比的所述商品分词词袋:
服务器各商品分词的词频占比后,将该些商品分词转换为所述分词向量,以为所述商铺对象构造包含该些分词向量与其关联的词频占比的所述商品分词词袋,以便后续的确定该商铺对象与其他商铺对象的所述商铺分词词袋之间的所述词移距离数据。
关于所述商品分词转换为所述分词向量的转换方式,一般是将商品分词输入至预训练好的词向量模型中,如wored2vec、BERT等模型,以将商品分词转换为所述分词向量,以构造所述商品分词词袋。
本实施例中,通过根据商铺对象的所述商品标题文本集,以为商铺对象生成所述商品分词词袋,以便后续通过两两商铺对象各自的所述商铺分词词袋,确定双方的所述词移距离数据。
请参考图4,关于服务器计算两两商铺对象之间的相似度数据,所述相似度数据为根据两个商铺对象的商品分词词袋之间的词移距离数据及所述商品价格集之间的距离数据的加权结果所确定的具体实施方式,其包括如下步骤:
步骤S131,调用词移距离算法,计算第一商铺对象的第一商品分词词袋与第二商铺对象的第二商品分词词袋的所述词移距离数据:
服务器调用所述词移距离算法,计算第一商品对象的第一所述商品分词词袋与第二商铺对象的第二商品分词词袋的所述词移距离数据。
所述的词移动距离算法一般是指WMD算法(Word Mover’s Distance),通过所述词移动距离算法,将第一商品分词词袋中所有词向量Travel到第二商品分词词袋中所有词向量,当第一商品分词词袋中词向量与第二商品分词词袋的词向量的语义比较相近的,那么可以全部移动或移动距离多一些(权重值),对于语义差异较大,则移动距离少一点或者不移动,用词向量距离乘以移动距离就是两个词向量之间的词移距离,相对应,第二商品分词词袋中所有词向量也将Travel到第一商品分词词袋中所有词向量,以此求出全局的词移距离的累加和最小值作为第一商铺对象与第二商铺对象的所述词移距离数据。
步骤S132,调用欧式距离算法,计算第一商铺对象的第一商品价格集与第二商铺对象的第二商品价格集的所述距离数据:
服务器调用所述欧式距离算法,计算第一商铺对象的第一商品价格集与第二商铺对象的第二商品价格集之间的所述距离数据。
在调用所述欧式距离算法计算所述距离数据之前,将对所述商品价格集进行预处理,计算商品价格集中各商品价格的平均数及分位数,以生成包含所述平均数及多个所述分位数的价格指标集,并调用最小最大标准化算法,以对所述价格指标集进行归一化处理,已将所述平均数集分位数转换为0-1区间的数值,并将该些数值顺序组成相应的价格向量,完成所述商品价格集的预处理。
完成所述第一商品价格集及第二商品价格集的预处理后,将调用所述欧式距离算法,计算双方的所述距离数据,所述的欧式距离算法的算法表达方式为:
具体的,当所述第一商铺对象的所述价格向量为(0,1/3,2/3,1),所述第二商铺对象的所述价格向量为(0,1/2,3/4,1)时,所述欧式距离算法的算法表达式中,x为第一商铺对象的所述价格向量,y为第二商铺对象的所述价格向量,n为所述价格向量中拥有的元素数量。
步骤S133,对所述词移距离数据及所述距离数据进行加权计算,获取加权结果作为第一商铺对象及第二商铺对象的所述相似度数据:
服务器获取第一商铺对象及第二商铺对象之间的所述词移距离数据及所述距离数据后,将对该词移距离数据及该距离数据进行加权计算,以获取加权计算后的加权结果作为第一商铺对象及第二商铺对象的所述相似度数据。
具体的,先对所述词移距离数据及距离数据分别采用最小最大标准化,以将双方映射至0-1的区间中,获取所述词移距离数据及距离数据各自对应的映射数据,之后采用预设的超参数对所述词移距离数据的映射数据及所述距离数据的映射数据进行计算,获取第一商铺对象与第二商铺对象的相似度数据,所述的加权计算的算法表达式为:
S=w*(1-d1)+(1-w)*(1-d2)
其中,d1为所述词移距离数据,d2为所述距离数据,w为预设得超参数,S为第一商铺对象与第二商铺对象的相似度数据。
本实施例中,通过根据两个商铺对象的商品分词词袋之间的词移距离数据及所述商品价格集之间的距离数据的加权结果,以获取两两商铺对象之间的所述相似度数据,通过参考两两商品对象的商铺标题文本及商品价格,确定两两商铺对象之间的相似度,深化了数据的深度,不以单一的数据作为参考进行双方相似度的判断,以提升双方的匹配性。
请参考图5,关于服务器调用欧式距离算法,计算第一商铺对象的第一商品价格集与第二商铺对象的第二商品价格集的所述距离数据的具体实施方式,包括如下步骤:
步骤S1321,计算第一商品价格集及第二商品价格集中各商品价格的平均数及分位数,以生成所述第一商铺对象的第一价格指标集及所述第二商铺对象的的第一价格指标集,所述价格指标集中包含其所述平均数及多个所述分位数:
服务器在调用所述欧式距离算法计算所述第一商铺对象的第一商品价格集与所述第二商铺对象的第二商品价格集的所述距离数据之前,将计算第一商品价格集及第二商品价格集中各商品价格的平均数及分位数,以生成所述第一商铺对象的第一价格指标集及所述第二商铺对象的的第一价格指标集,具体的,统计商品价格集中商品价格得平均数及多个分位数,所述分位数一般包含25%分位数、50%分位数及75%分位数,服务器将统计所述商品价格集所得商品价格的平均数及多个分位数构造为所述价值指标集。
步骤S1322,调用最小最大标准化算法,以对所述第一价格指标集及第一价格指标集分别进行归一化处理,获取所述第一商铺对象的第一价格向量及所述第二商铺对象的第二价格向量:
服务器完成所述第一价格指标集及第一价格指标集的构造后,将调用所述最小最大标准化算法,以对该第一价格指标集及第一价格指标集分别进行归一化处理,获取所述第一商铺对象的第一价格向量及所述第二商铺对象的第二价格向量,例如,当所述第一价格指标集为[i=1,2,3,4]时,所述的最小最大标准化算法的表达式为:
其中,max(pi)为所述第一价格指标集中最大值“4”,min(pi)为所述第一价格指标集中最小值“1”,则通过所述调用最小最大标准化算法,以对所述第一价格指标集进行归一化处理后,该第一价格指标集对应的第一价格向量为(0,1/3,2/3,1)。
步骤S1323,调用欧式距离算法对所述第一价格向量及第二价格向量进行距离计算,以获取第一商铺对象与第二商铺对象的所述距离数据:
服务器获取所述第一价格向量及第二价格向量后,将调用所述欧式距离算法对所述第一价格向量及第二价格向量进行距离计算,以获取第一商铺对象与第二商铺对象的所述距离数据,具体的,请参考步骤S132中相关的实施方式,本步骤恕不赘述。
本实施例中,通过对商品价格集进行预处理,以标准化商铺对象双方的商铺价格集的数据格式,便于后续商铺对象双方的商铺价格集之间的所述距离数据的计算。
请参考图6,关于服务器响应商铺匹配指令,根据所述相似度数据为该指令指定的目标商铺对象查询确定其相应的若干个相似商铺对象的具体实施方式,其包括如下步骤:
步骤S141,响应所述商铺匹配指令,确定该指令所指向的目标商铺对象:
服务器响应所述由客户端推送的商铺匹配指令,确定该商铺匹配指令所指向的目标商铺对象。
步骤S142,获取与所述目标商铺对象映射到所有商铺对象的相似度数据,并对该些相似度数据进行排序,以获取相应的排序结果:
服务器确定所述商品匹配指令所指向的目标商铺对象后,将查询该目标商铺对象与其他所有商铺对象各自相对应的相似度数据,并按照该些相似度数据的进行降序的排序,以获取该些相似度数据相应的所述排序结果。
步骤S143,从所述排序结果中选取预设数量的若干个相似度数据最大的相似商铺对象:
服务器获取各所述商铺对象的相似度数据的排序结果后,将从所述排序结果中下去预设数量的若干个相似度数据最大的相似商铺对象,所筛选出的相似商铺对象的数量一般会被预先规定,以避免产出过多的相似商铺对象,因此,可采用Top_K算法,预先设定K的数值,从所述排序结果中选取出排序靠前的相应K个相似商铺对象,构成一张相似商铺对象列表。
步骤S144,将所述相似商铺对象推送给触发所述商品匹配指令的客户端:
当所述商铺匹配指令是由某个平台用户的客户端所触发推送至服务器中时,例如该用户进入一个推荐电商商铺的页面中时,然后服务器将其解析为根据该用户刚刚访问的某个目标商铺对象或进行消费某个商铺对象获取相似商铺对象而触发所述的商铺匹配指令,这种情况下,服务器获取到该目标商铺对象的相似商铺对象之后,便可将这些相似商铺对象构成的相似商铺对象列表推送给该用户的客户端中,以作为对所述商铺匹配指令的响应。
本实施例中通过提供为相似商铺推荐的业务逻辑,使本申请所计算的相似度数据更加实用化,而服务于用户的相似商铺对象匹配,提升用户在电商平台中的电商购物体验,以刺激用户在相似的商铺中进行进一步的消费。
进一步,可以通过将上述各实施例所揭示的方法中的各个步骤进行功能化,构造出本申请的一种线上商铺匹配装置,按照这一思路,请参阅图7,其中的一个典型实施例中,该装置包括:商铺对象获取模块11,用于获取多个商铺对象各自对应的商品标题文本集以及商品价格集,所述商品标题文本集中包含多个商品标题文本;分词词袋生成模块12,用于根据该些商铺对象各自对应的所述商品标题文本集,分别为各商铺对象生成商品分词词袋,所述商品分词词袋中包含多个商品分词的分词向量及其词频占比,所述商品分词从商品标题文本中提取所得;相似度计算模块13,用于计算两两商铺对象之间的相似度数据,所述相似度数据为根据两个商铺对象的商品分词词袋之间的词移距离数据及所述商品价格集之间的距离数据的加权结果所确定;匹配指令响应模块14,用于响应商铺匹配指令,根据所述相似度数据为该指令指定的目标商铺对象查询确定其相应的若干个相似商铺对象。
一种实施例中,所述的分词词袋生成模块12包括:商品分词提取子模块,用于提取商铺对象的商品标题文本集中多个商品标题文本各自包含的商品分词,并将该些商品分词储存至商品分词表中;词频占比确定子模块,用于统计所述商品分词表中所有商品分词各自的词频,并对该些商品分词的词频进行归一化,以获取各商品分词的词频占比;分词词袋构造子模块,用于将所有商品分词转换为分词向量,以为所述商铺对象构造包含该些分词向量及其关联的词频占比的所述商品分词词袋。
一种实施例中,所述的相似度计算模块13包括:词移距离数据计算子模块,用于调用词移距离算法,计算第一商铺对象的第一商品分词词袋与第二商铺对象的第二商品分词词袋的所述词移距离数据;距离数据计算子模块,用于调用欧式距离算法,计算第一商铺对象的第一商品价格集与第二商铺对象的第二商品价格集的所述距离数据;相似度数据计算子模块,用于对所述词移距离数据及所述距离数据进行加权计算,获取加权结果作为第一商铺对象及第二商铺对象的所述相似度数据。
一种实施例中,所述的匹配指令响应模块14包括:匹配指令响应子模块,用于响应所述商铺匹配指令,确定该指令所指向的目标商铺对象;排序结果获取子模块,用于获取与所述目标商铺对象映射到所有商铺对象的相似度数据,并对该些相似度数据进行排序,以获取相应的排序结果;相似商铺对象选定子模块,用于从所述排序结果中选取预设数量的若干个相似度数据最大的相似商铺对象;相似商铺对象推送子模块,用于将所述相似商铺对象推送给触发所述商品匹配指令的客户端。
为解决上述技术问题,本申请实施例还提供一种计算机设备,用于运行根据所述线上商铺匹配方法所实现的计算机程序。具体请参阅图8,图8为本实施例计算机设备基本结构框图。
如图8所示,计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种线上商铺匹配方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种线上商铺匹配方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行本申请的线上商铺匹配装置中的各个模块/子模块的具体功能,存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有线上商铺匹配装置中执行所有模块/子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
本申请还提供一种非易失性存储介质,所述的线上商铺匹配方法被编写成计算机程序,以计算机可读指令的形式存储于该存储介质中,计算机可读指令被一个或多个处理器执行时,意味着该程序在计算机中的运行,由此使得一个或多个处理器执行上述任一实施例线上商铺匹配方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
综上所述,本申请从商铺的商品标题及商品价格进行精确地相似商铺的匹配,以向用户提供更精准地相似商铺推荐服务,提升用户的电商购物体验。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本技术领域技术人员可以理解,本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种线上商铺匹配方法,其特征在于,包括如下步骤:
获取多个商铺对象各自对应的商品标题文本集以及商品价格集,所述商品标题文本集中包含多个商品标题文本;
根据该些商铺对象各自对应的所述商品标题文本集,分别为各商铺对象生成商品分词词袋,所述商品分词词袋中包含多个商品分词的分词向量及其词频占比,所述商品分词从商品标题文本中提取所得;
计算两两商铺对象之间的相似度数据,所述相似度数据为根据两个商铺对象的商品分词词袋之间的词移距离数据及所述商品价格集之间的距离数据的加权结果所确定;
响应商铺匹配指令,根据所述相似度数据为该指令指定的目标商铺对象查询确定其相应的若干个相似商铺对象。
2.根据权利要求1所述的方法,其特征在于,根据该些商铺对象各自对应的所述商品标题文本集,分别为各商铺对象生成商品分词词袋的步骤,包括:
提取商铺对象的商品标题文本集中多个商品标题文本各自包含的商品分词,并将该些商品分词储存至商品分词表中;
统计所述商品分词表中所有商品分词各自的词频,并对该些商品分词的词频进行归一化,以获取各商品分词的词频占比;
将所有商品分词转换为分词向量,以为所述商铺对象构造包含该些分词向量及其关联的词频占比的所述商品分词词袋。
3.根据权利要求1所述的方法,其特征在于,计算两两商铺对象之间的相似度数据,所述相似度数据为根据两个商铺对象的商品分词词袋之间的词移距离数据及所述商品价格集之间的距离数据的加权结果所确定的步骤,包括:
调用词移距离算法,计算第一商铺对象的第一商品分词词袋与第二商铺对象的第二商品分词词袋的所述词移距离数据;
调用欧式距离算法,计算第一商铺对象的第一商品价格集与第二商铺对象的第二商品价格集的所述距离数据;
对所述词移距离数据及所述距离数据进行加权计算,获取加权结果作为第一商铺对象及第二商铺对象的所述相似度数据。
4.根据权利要求3所述的方法,其特征在于,调用欧式距离算法,计算第一商铺对象的第一商品价格集与第二商铺对象的第二商品价格集的所述距离数据的步骤,包括:
计算第一商品价格集及第二商品价格集中各商品价格的平均数及分位数,以生成所述第一商铺对象的第一价格指标集及所述第二商铺对象的的第一价格指标集,所述价格指标集中包含其所述平均数及多个所述分位数;
调用最小最大标准化算法,以对所述第一价格指标集及第一价格指标集分别进行归一化处理,获取所述第一商铺对象的第一价格向量及所述第二商铺对象的第二价格向量;
调用欧式距离算法对所述第一价格向量及第二价格向量进行距离计算,以获取第一商铺对象与第二商铺对象的所述距离数据。
5.根据权利要求1所述的方法,其特征在于,计算两两商铺对象之间的相似度数据的步骤中,构造用于存储所述相似度数据的相似度矩阵,其中每个元素用于存储其行坐标所指向的商铺对象与其列坐标所指向的商铺对象之间的相似度数据。
6.根据权利要求1至5所述的方法,其特征在于,响应商铺匹配指令,根据所述相似度数据为该指令指定的目标商铺对象查询确定其相应的若干个相似商铺对象:
响应所述商铺匹配指令,确定该指令所指向的目标商铺对象;
获取与所述目标商铺对象映射到所有商铺对象的相似度数据,并对该些相似度数据进行排序,以获取相应的排序结果;
从所述排序结果中选取预设数量的若干个相似度数据最大的相似商铺对象;
将所述相似商铺对象推送给触发所述商品匹配指令的客户端。
7.一种线上商铺匹配装置,其特征在于,其包括:
商铺对象获取模块,用于获取多个商铺对象各自对应的商品标题文本集以及商品价格集,所述商品标题文本集中包含多个商品标题文本;
分词词袋生成模块,用于根据该些商铺对象各自对应的所述商品标题文本集,分别为各商铺对象生成商品分词词袋,所述商品分词词袋中包含多个商品分词的分词向量及其词频占比,所述商品分词从商品标题文本中提取所得;
相似度计算模块,用于计算两两商铺对象之间的相似度数据,所述相似度数据为根据两个商铺对象的商品分词词袋之间的词移距离数据及所述商品价格集之间的距离数据的加权结果所确定;
匹配指令响应模块,用于响应商铺匹配指令,根据所述相似度数据为该指令指定的目标商铺对象查询确定其相应的若干个相似商铺对象。
8.一种电子设备,包括中央处理器和存储器,其特征在于,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至6中任一项所述的方法的步骤。
9.一种非易失性存储介质,其特征在于,其以计算机可读指令的形式存储有依据权利要求1至6中任意一项所述的方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行该方法所包括的步骤。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至6任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111213958.5A CN113947456A (zh) | 2021-10-19 | 2021-10-19 | 线上商铺匹配方法及其装置、设备、介质、产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111213958.5A CN113947456A (zh) | 2021-10-19 | 2021-10-19 | 线上商铺匹配方法及其装置、设备、介质、产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113947456A true CN113947456A (zh) | 2022-01-18 |
Family
ID=79331651
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111213958.5A Pending CN113947456A (zh) | 2021-10-19 | 2021-10-19 | 线上商铺匹配方法及其装置、设备、介质、产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113947456A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103942693A (zh) * | 2013-01-18 | 2014-07-23 | 阿里巴巴集团控股有限公司 | 识别杂货铺的方法、装置及搜索店铺的方法、系统 |
US20150058087A1 (en) * | 2013-08-20 | 2015-02-26 | International Business Machines Corporation | Method of identifying similar stores |
CN106920151A (zh) * | 2017-03-06 | 2017-07-04 | 携程旅游网络技术(上海)有限公司 | 酒店备选池的推荐方法和系统 |
CN109063147A (zh) * | 2018-08-06 | 2018-12-21 | 北京航空航天大学 | 基于文本相似度的在线课程论坛内容推荐方法及系统 |
CN112395501A (zh) * | 2020-11-17 | 2021-02-23 | 航天信息股份有限公司 | 企业推荐方法、装置、存储介质及电子设备 |
CN112418969A (zh) * | 2020-05-12 | 2021-02-26 | 上海哔哩哔哩科技有限公司 | 商品匹配方法、装置、计算机设备 |
CN113065922A (zh) * | 2021-04-13 | 2021-07-02 | 武汉市章瀚电子商务有限公司 | 基于移动互联网和大数据分析的电子商务购物平台商品智能匹配推荐方法 |
CN113239259A (zh) * | 2021-04-30 | 2021-08-10 | 北京沃东天骏信息技术有限公司 | 确定相似店铺的方法和装置 |
CN113468414A (zh) * | 2021-06-07 | 2021-10-01 | 广州华多网络科技有限公司 | 商品搜索方法、装置、计算机设备及存储介质 |
-
2021
- 2021-10-19 CN CN202111213958.5A patent/CN113947456A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103942693A (zh) * | 2013-01-18 | 2014-07-23 | 阿里巴巴集团控股有限公司 | 识别杂货铺的方法、装置及搜索店铺的方法、系统 |
US20150058087A1 (en) * | 2013-08-20 | 2015-02-26 | International Business Machines Corporation | Method of identifying similar stores |
CN106920151A (zh) * | 2017-03-06 | 2017-07-04 | 携程旅游网络技术(上海)有限公司 | 酒店备选池的推荐方法和系统 |
CN109063147A (zh) * | 2018-08-06 | 2018-12-21 | 北京航空航天大学 | 基于文本相似度的在线课程论坛内容推荐方法及系统 |
CN112418969A (zh) * | 2020-05-12 | 2021-02-26 | 上海哔哩哔哩科技有限公司 | 商品匹配方法、装置、计算机设备 |
CN112395501A (zh) * | 2020-11-17 | 2021-02-23 | 航天信息股份有限公司 | 企业推荐方法、装置、存储介质及电子设备 |
CN113065922A (zh) * | 2021-04-13 | 2021-07-02 | 武汉市章瀚电子商务有限公司 | 基于移动互联网和大数据分析的电子商务购物平台商品智能匹配推荐方法 |
CN113239259A (zh) * | 2021-04-30 | 2021-08-10 | 北京沃东天骏信息技术有限公司 | 确定相似店铺的方法和装置 |
CN113468414A (zh) * | 2021-06-07 | 2021-10-01 | 广州华多网络科技有限公司 | 商品搜索方法、装置、计算机设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
HORCH A等: "Matching Product Offers of E-Shops", 《MEETING20TH PACIFIC-ASIA CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING (PAKDD)》, vol. 9794, 23 November 2016 (2016-11-23), pages 248 - 259 * |
艾黎;: "基于商品属性与用户聚类的个性化服装推荐研究", 《现代情报》, vol. 35, no. 09, 15 September 2015 (2015-09-15), pages 165 - 170 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102236663B (zh) | 一种基于垂直搜索的查询方法、系统和装置 | |
CN101937549B (zh) | 网络购物导航领域的图片导航系统 | |
CN110910199A (zh) | 项目信息的排序方法、装置、计算机设备及存储介质 | |
CN101950400B (zh) | 网络购物导航方法领域的图片检索方法 | |
CN113869048A (zh) | 商品对象搜索方法及其装置、设备、介质、产品 | |
CN112070577A (zh) | 一种商品推荐方法、系统、设备及介质 | |
CN114912948B (zh) | 基于云服务的跨境电商大数据智能处理方法、装置及设备 | |
CN113468414A (zh) | 商品搜索方法、装置、计算机设备及存储介质 | |
CN114663197A (zh) | 商品推荐方法及其装置、设备、介质、产品 | |
CN103309869A (zh) | 数据对象的展示关键词推荐方法及系统 | |
CN114898349A (zh) | 目标商品识别方法及其装置、设备、介质、产品 | |
CN114638646A (zh) | 广告投放推荐方法及其装置、设备、介质、产品 | |
CN113761393A (zh) | 商品协同推荐方法及其装置、设备、介质、产品 | |
CN113627995A (zh) | 商品推荐列表更新方法及其装置、设备、介质、产品 | |
CN115018549A (zh) | 广告文案生成方法及其装置、设备、介质、产品 | |
CN115545832A (zh) | 商品搜索推荐方法及其装置、设备、介质 | |
CN114862480A (zh) | 广告投放定向方法及其装置、设备、介质、产品 | |
CN115099857A (zh) | 广告商品组合发布方法及其装置、设备、介质、产品 | |
CN114626926A (zh) | 商品搜索类目识别方法及其装置、设备、介质、产品 | |
CN113326701A (zh) | 嵌套实体识别方法、装置、计算机设备及存储介质 | |
CN116823404A (zh) | 商品组合推荐方法及其装置、设备、介质 | |
CN113343684B (zh) | 核心产品词识别方法、装置、计算机设备及存储介质 | |
CN115936805A (zh) | 商品推荐方法及其装置、设备、介质 | |
CN116957128A (zh) | 业务指标预测方法、装置、设备和存储介质 | |
CN113947456A (zh) | 线上商铺匹配方法及其装置、设备、介质、产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |