CN114219571A - 电商独立站点匹配方法及其装置、设备、介质、产品 - Google Patents
电商独立站点匹配方法及其装置、设备、介质、产品 Download PDFInfo
- Publication number
- CN114219571A CN114219571A CN202111547696.6A CN202111547696A CN114219571A CN 114219571 A CN114219571 A CN 114219571A CN 202111547696 A CN202111547696 A CN 202111547696A CN 114219571 A CN114219571 A CN 114219571A
- Authority
- CN
- China
- Prior art keywords
- independent
- commodity
- hash
- sites
- site
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000004364 calculation method Methods 0.000 claims abstract description 39
- 239000013598 vector Substances 0.000 claims description 54
- 230000011218 segmentation Effects 0.000 claims description 49
- 238000004422 calculation algorithm Methods 0.000 claims description 38
- 238000004590 computer program Methods 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 20
- 238000013507 mapping Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 description 17
- 238000012545 processing Methods 0.000 description 11
- 230000008901 benefit Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 229910002056 binary alloy Inorganic materials 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004132 cross linking Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开一种电商独立站点匹配方法及其装置、设备、介质、产品,所述方法包括:获取提供电商服务的至少两个独立站点各自相对应的商品标题列表;计算每个所述的商品标题列表中每个商品标题相对应的哈希指纹,所述哈希指纹为根据商品标题的分词的哈希值匹配相应的分词类型权重后转换而得的等位长二进制编码;计算每两个独立站点之间两两商品标题的哈希指纹之间的数据距离,确定两个独立站点之间的相似商品标题总数;判断每两个独立站点之间的所述相似商品标题总数是否超过预设阈值,当超过预设阈值时判定该两个独立站点为相似站点。本申请适于以商品标题相对应的哈希指纹为依据而判定电商平台中不同独立站点之间的相似关系,运算量少,运算效率高。
Description
技术领域
本申请涉及电商信息技术领域,尤其涉及一种电商独立站点匹配方法及其相应的装置、计算机设备、计算机可读存储介质,以及计算机程序产品。
背景技术
跨境电商服务平台中,集中为海量的独立站点提供基础技术服务,每个独立站点通常拥有独立的域名,其后台数据通常也会自成一体进行管理,各个独立站点之间通常不存在直接的关联,如需实现此类关联,一般也由跨境电商服务平台统一支持,例如在独立网站之间统一用户体系、统一后台数据分析、标准化业务逻辑等。
有时,平台方需要通过对多个独立站点的后台数据进行集中分析,实施数据挖掘,获得有价值的信息,然后利用这些信息完善对独立站点和用户的服务。例如,一种具体需求中,可以在后台分析各个独立站点所经营的商品的异同,对大量的独立站点进行分类,以便基于不同分类对相应的独立站点开放不同的基础技术支持,例如向一个独立站点的访问用户推荐该独立站点的相似独立站点、向不同类型的独立站点的商家用户推荐不同的产品等,诸如此类,均依赖于平台方的后台技术的支持方可实现。
更具体的一种需求中,涉及需要对不同独立站点所经营的商品的相似比较,由于平台方所面对的独立站点是大量的,且每个独立站点所经营的商品数量更是多不胜数,因此,当平台方需要满足此类需求时,会涉及到海量商品数据的计算,计算量巨大。如果未能采取高效的手段来实现相关技术,可能导致平台方无法有效解决相关问题而满足相应的需求。
概括而言,现有技术在跨境电商服务平台应用场景中,未见解决独立站群聚类、商品相似匹配等需求相关的高效的解决方案,据此,本申请人做出相应的探索。
发明内容
本申请的首要目的在于解决上述问题至少之一而提供一种电商独立站点匹配方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品。
为满足本申请的各个目的,本申请采用如下技术方案:
适应本申请的目的之一而提供的一种电商独立站点匹配方法,包括如下步骤:
获取提供电商服务的至少两个独立站点各自相对应的商品标题列表;
计算每个所述的商品标题列表中每个商品标题相对应的哈希指纹,所述哈希指纹为根据商品标题的分词的哈希值匹配相应的分词类型权重后转换而得的等位长二进制编码;
计算每两个独立站点之间两两商品标题的哈希指纹之间的数据距离,确定两个独立站点之间的相似商品标题总数;
判断每两个独立站点之间的所述相似商品标题总数是否超过预设阈值,当超过预设阈值时判定该两个独立站点为相似站点。
深化的实施例中,获取提供电商服务的至少两个独立站点各自相对应的商品标题列表,包括如下步骤:
根据电商平台的站点注册库,获取站点注册库中的注册商户相对应的独立站点;
访问各个所述的独立站点的商品数据库,获取各个独立站点的商品数据库中的商品对象的商品标题;
将各个独立站点的商品标题构造为该独立站点相对应的商品标题列表。
深化的实施例中,计算每个所述的商品标题列表中每个商品标题相对应的哈希指纹中的步骤中,针对每个所述的商品标题,执行如下步骤:
对所述商品标题进行分词,根据各个分词命中的不同类型的分词库确定其分词类型;
计算所述各个分词的哈希值,所述哈希值表示为二进制格式;
根据相应的分词类型为分词的哈希值按进位匹配权重,其中该进位为1时以该权重的正数形式作为结果值,为0时以该权重的负数形式作为结果值,获得结果值序列构成哈希向量;
将所有分词的哈希向量进行向量加和,获得加和结果向量;
将加和结果向量映射到二值空间,其中,将数值大于0的元素归一化为1,余者均归一化为0,从而获得所述商品标题相对应的哈希指纹。
深化的实施例中,计算每两个独立站点之间两两商品标题的哈希指纹之间的数据距离,确定两个独立站点之间的相似商品标题总数的步骤中,针对每两个独立站点,执行如下步骤:
采用预设相似度计算公式,计算两个独立站点中两两商品标题的哈希指纹之间的数据距离,归一化为相似度数值;
将两个独立站点之间两相似度数值构造为相似矩阵,其中每个元素存储其行坐标所表示的一个独立站点的一个商品标题的哈希指纹与其列坐标所表示的另一独立站点的一个商品标题之间的相似度数值;
从所述相似矩阵中确定出两个独立站点之间相似度数值超过预设门限的相似商品标题总数。
可选的实施例中,所述相似度计算公式应用如下任意一种算法:欧氏距离算法、余弦相似度算法、汉明距离算法、杰卡德算法、皮尔逊相关系数算法。
扩展的实施例中,判断每两个独立站点之间的所述相似商品标题总数是否超过预设阈值,当超过预设阈值时判定该两个独立站点为相似站点的步骤之后,包括如下步骤:
响应用户访问构成相似站点的任意一个独立站点的访问事件,向该用户推送与被访问的独立站点构成相似站点的其他独立站点。
适应本申请的目的之一而提供的一种电商独立站点匹配装置,包括:列表获取模块、指纹生成模块、相似统计模块,以及站群判定模块,其中,所述列表获取模块,用于获取提供电商服务的至少两个独立站点各自相对应的商品标题列表;所述指纹生成模块,用于计算每个所述的商品标题列表中每个商品标题相对应的哈希指纹,所述哈希指纹为根据商品标题的分词的哈希值匹配相应的分词类型权重后转换而得的等位长二进制编码;所述相似统计模块,用于计算每两个独立站点之间两两商品标题的哈希指纹之间的数据距离,确定两个独立站点之间的相似商品标题总数;所述站群判定模块,用于判断每两个独立站点之间的所述相似商品标题总数是否超过预设阈值,当超过预设阈值时判定该两个独立站点为相似站点。
深化的实施例中,所述列表获取模块,包括:站点预选子模块,用于根据电商平台的站点注册库,获取站点注册库中的注册商户相对应的独立站点;名称提取子模块,用于访问各个所述的独立站点的商品数据库,获取各个独立站点的商品数据库中的商品对象的商品标题;列表构造子模块,用于将各个独立站点的商品标题构造为该独立站点相对应的商品标题列表。
深化的实施例中,所述指纹生成模块,包括:分词处理子模块,用于对所述商品标题进行分词,根据各个分词命中的不同类型的分词库确定其分词类型;哈希计算子模块,用于计算所述各个分词的哈希值,所述哈希值表示为二进制格式;权重匹配子模块,用于根据相应的分词类型为分词的哈希值按进位匹配权重,其中该进位为1时以该权重的正数形式作为结果值,为0时以该权重的负数形式作为结果值,获得结果值序列构成哈希向量;向量加和子模块,用于将所有分词的哈希向量进行向量加和,获得加和结果向量;归一映射子模块,用于将加和结果向量映射到二值空间,其中,将数值大于0的元素归一化为1,余者均归一化为0,从而获得所述商品标题相对应的哈希指纹。
深化的实施例中,所述相似统计模块,包括:相似计算子模块,用于采用预设相似度计算公式,计算两个独立站点中两两商品标题的哈希指纹之间的数据距离,归一化为相似度数值;矩阵转换子模块,用于将两个独立站点之间两相似度数值构造为相似矩阵,其中每个元素存储其行坐标所表示的一个独立站点的一个商品标题的哈希指纹与其列坐标所表示的另一独立站点的一个商品标题之间的相似度数值;总数计算子模块,用于从所述相似矩阵中确定出两个独立站点之间相似度数值超过预设门限的相似商品标题总数。
可选的实施例中,所述相似度计算公式应用如下任意一种算法:欧氏距离算法、余弦相似度算法、汉明距离算法、杰卡德算法、皮尔逊相关系数算法。
扩展的实施例中,本申请的电商独立站点匹配装置,还包括:
响应用户访问构成相似站点的任意一个独立站点的访问事件,向该用户推送与被访问的独立站点构成相似站点的其他独立站点。
适应本申请的目的之一而提供的一种计算机设备,包括中央处理器和存储器,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的电商独立站点匹配方法的步骤。
适应本申请的另一目的而提供的一种计算机可读存储介质,其以计算机可读指令的形式存储有依据所述的电商独立站点匹配方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行该方法所包括的步骤。
适应本申请的另一目的而提供的一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现本申请任意一种实施例中所述方法的步骤。
相对于现有技术,本申请的优势如下:
首先,本申请在对不同独立站点之间的商品进行比较时,采用哈希指纹对各个商品的商品标题进行表征,所述哈希指纹为根据商品标题的分词的哈希值匹配相应的分词类型权重后转换而得的等位长二进制编码,其在分词哈希值的基础上关联了不同分词类型的权重信息,既实现对商品标题的索引和映射,又实现根据商品标题中的不同类型分词的不同重要性的语义表征,在此基础上,转换为二进制格式的哈希指纹,实现了对各个商品标题的有效的语义表示,方式简便且计算高效,在处理海量商品标题时,能取得明显的计算效率优势。
其次,在实现以哈希指纹对相应的商品标题的语义表示之后,本申请将每两个独立站点的商品标题相对应的哈希指纹进行相似度匹配,根据相似度匹配结果,判定两个独立站点是否实现匹配,从而可以用于确定两个独立站点的相似关系,例如是否构成同一类或者是否构成侵权关系等,挖掘了跨境电商服务平台下的海量商品数据的数据价值,有助于实现更丰富的下游任务,例如相似站点广告推荐、侵权站点排查、站群分类等等。
此外,本申请哈希指纹实现高效的语义表示,又将其应用于电商平台中实现广泛的独立站点内的商品标题的跨站点匹配,据此确定各个独立站点之间的相似关系,涉及的数据是海量的,但本申请的这些特点本身又能体现出其在处理海量数据时的效率优势,因此,对于电商平台而言,应用本申请的技术方案,可以取得更为明显的规模经济效应。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请的电商独立站点匹配方法的典型实施例的流程示意图;
图2为本申请实施例中获取独立站点的商品标题列表过程的流程示意图;
图3为本申请实施例中获取商品标题的哈希指纹的过程的流程示意图;
图4为本申请实施例中确定两个独立站点之间的相似商品标题总数的过程的流程示意图;
图5为本申请的电商独立站点匹配方法的扩展实施例的流程示意图;
图6为本申请的电商独立站点匹配装置的原理框图;
图7为本申请所采用的一种计算机设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他诸如个人计算机、平板电脑之类的通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(PersonalCommunications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件,本质上是具备个人计算机等效能力的电子设备,为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置,计算机程序存储于其存储器中,中央处理器将存储在外存中的程序调入内存中运行,执行程序中的指令,与输入输出设备交互,借此完成特定的功能。
需要指出的是,本申请所称的“服务器”这一概念,同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理,所述各服务器应是逻辑上的划分,在物理空间上,这些服务器既可以是互相独立但可通过接口调用的,也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通,而不应以此约束本申请的网络部署方式的实施方式。
本申请的一个或数个技术特征,除非明文指定,既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问,也可直接部署并运行于客户端来实施访问。
本申请中所引用或可能引用到的神经网络模型,除非明文指定,既可部署于远程服务器且在客户端实施远程调用,也可部署于设备能力胜任的客户端直接调用,某些实施例中,当其运行于客户端时,其相应的智能可通过迁移学习来获得,以便降低对客户端硬件运行资源的要求,避免过度占用客户端硬件运行资源。
本申请所涉及的各种数据,除非明文指定,既可远程存储于服务器,也可存储于本地终端设备,只要其适于被本申请的技术方案所调用即可。
本领域技术人员对此应当知晓:本申请的各种方法,虽然基于相同的概念而进行描述而使其彼此间呈现共通性,但是,除非特别说明,否则这些方法都是可以独立执行的。同理,对于本申请所揭示的各个实施例而言,均基于同一发明构思而提出,因此,对于相同表述的概念,以及尽管概念表述不同但仅是为了方便而适当变换的概念,应被等同理解。
本申请即将揭示的各个实施例,除非明文指出彼此之间的相互排斥关系,否则,各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例,只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通,本领域技术人员应当知晓。
本申请的一种电商独立站点匹配方法,可被编程为计算机程序产品,部署于客户端或服务器中运行而实现,例如在本申请的电商平台应用场景中,一般部署在服务器中实施,藉此可以通过访问该计算机程序产品运行后开放的接口,通过图形用户界面与该计算机程序产品的进程进行人机交互而执行该方法。
请参阅图1,图1为本申请的电商独立站点匹配方法在其典型实施例中体现的流程示意图,在本典型实施例中,本申请的电商独立站点匹配方法包括如下步骤:
步骤S1100、获取提供电商服务的至少两个独立站点各自相对应的商品标题列表:
本申请的技术方案以电商服务平台的运行环境为其应用环境,所述电商服务平台,可以是开放独立站点服务的电商服务平台,典型的,例如跨境电商服务平台。此类平台由于需要考虑全球各地区之间的网络环境以及各商家之间的独立性,而通过将每个商家的店铺配置为一个个的独立站点,从而使电商服务平台服务于大量的此类独立站点。
每个所述的独立站点均拥有自身网站在售商品相对应的商品数据库,所述商品数据库包含大量的用于描述不同商品的商品数据,这些商品数据包括但不限于商品标题、商品详情、商品图片、商品属性等各类型数据,每个商品的商品数据可被视为商品数据库中的一个商品对象。据此,不难理解,通过对每个独立站点的商品数据库的访问操作,可以获得每个独立站点相对应的商品标题列表,该商品标题列表中包含其相应的独立站点的商品数据库中的全量商品对象的商品标题。
所述商品标题,通常显示于商品详情页面的显要位置,其所包含的内容常是一些形容词与名词的结合,无论包含的词性如何,均起单独或结合辅助说明商品的作用。本申请中,可根据一定的分类标准,商品标题中的各个词划分为不同分类标准相对应的分词类型对待,以便根据分词类型的不同而为各个词赋予不同的信息价值。
当需要对电商服务平台的独立站点之间的商品相似性进行考察时,特别是对商品数据库之间的相似性进行尽可能全面的考察时,便可由后台服务器从电商平台下辖的各个独立站点的商品数据库中,提取出其中的商品对象的商品标题,构成相应的商品数据库的商品标题列表,以供后续处理。为说明和理解的便利,在本申请的说明过程中,常以对每两个独立站点进行商品的相似性考察为例进行说明,对此,本领域技术人员应当理解,同样的原理自然也可推而广之适用于对电商平台的全量独立网站进行相似性考察,而不应以此为限,约束本申请的创造精神所应涵盖的范围。
步骤S1200、计算每个所述的商品标题列表中每个商品标题相对应的哈希指纹,所述哈希指纹为根据商品标题的分词的哈希值匹配相应的分词类型权重后转换而得的等位长二进制编码:
为了便于进行数据相似匹配,本申请先对所有商品标题列表中的每一个商品标题进行语义表示,通过预设的算法,将每个商品标题都转换为其相应的哈希指纹,通过哈希指纹对商品对象进行语义表征,可以借助哈希指纹具有稀疏性的特点,以及根据相同数据具有相同哈希指纹的特点,来将商品对象的语义精准地表示出来,从而服务于本申请的改进目的。
获取商品标题相对应的哈希指纹的方式,可由本领域技术人员灵活实施,为了服务于本申请的技术目的,本申请将该哈希指纹约束为一定的格式。具体而言,本申请中,哈希指纹被约束为一个二进制编码,不同商品标题均采用同一算法过程制备出位长相等的二进制编码。为了获得商品标题的哈希指纹,可以先对所述商品标题进行分词处理,以获得其相对应的多个分词,计算出各个分词相对应的哈希值。然后,根据这些分词所属的分词类型,将各个分词匹配与其分词类型相对应的权重,适应每一商品标题将其匹配权重后的各分词的哈希值进行综合并归一化,获得相应的一个二进制编码,即构成该商品标题相对应的哈希指纹。根据这一方式,逐一对各个商品标题列表中的各个商品标题进行计算,便可获得全量的商品标题相应的哈希指纹。不难理解,由于这一过程多以二进制进行运算,而二进制运算效率较高,因此,对海量商品标题进行语义表示的过程非常快速高效。
通常,本申请为计算所述哈希值及所述的哈希指纹而采用的算法中,包括具体的哈希算法及转换算法,均按照预定的位长输出各个阶段的二进制编码,所述的二进制编码优选32位、64位、128位、256位等,视一次性需要处理的商品标题的数量而灵活确定即可。
步骤S1300、计算每两个独立站点之间两两商品标题的哈希指纹之间的数据距离,确定两个独立站点之间的相似商品标题总数:
当每个独立站点的商品标题列表中的每个商品标题均获得其相对应的哈希指纹之后,可将哈希指纹与相应的商品标题进行关联,以方便本步骤的调用。
为了总体考察每两个独立站点之间的商品相似性,本申请中,对于任意两个独立站点而言,计算其中第一独立站点的各个商品标题的哈希指纹与其中第二独立站点的各个商品标题的哈希指纹两两之间的数据距离,根据数据距离来确定两个独立站点之间商品标题构成相似的商品对的总数。
计算两个哈希指纹之间的数据距离时,可应用预设的相似度计算公式来实施,所述相似度计算公式可应用如下任意一种算法:欧氏距离算法、余弦相似度算法、汉明距离算法、杰卡德算法、皮尔逊相关系数算法等等。不难理解,基于二进制计算,能够获得更高的计算速率。
当云计算出两两哈希指纹之间的数据距离之后,便可根据数据距离找出构成相似的两两商品标题对,进而便可根据这些商品标题对统计出构成相似的商品标题对在全量商品标题中的占比,例如简单地构成相似的商品标题对除以两个独立站点的商品标题总量的均值,统计出两个独立站点之间构成相似的商品标题的总量,即相似商品标题总数。
步骤S1400、判断每两个独立站点之间的所述相似商品标题总数是否超过预设阈值,当超过预设阈值时判定该两个独立站点为相似站点:
为了决策电商平台中任意两个独立站点之间是否构成相似站点关系,本申请中,可采用一个预设阈值,该阈值可为经验阈值或实验阈值,比较经过前述各个步骤计算而得的该两个独立站点之间的相似商品标题总数是否超过该预设阈值,当超过该预设阈值时,则可判定两个独立站点构成相似站点,否则,两者不构成相似站点。
经过本典型实施例的过程的处理,便对任意两个独立站点是否构成相似站点做出判定,据此,便可服务于各种相关的下游任务,包括相似站点匹配、相似站点推荐、侵权站点监控等,为不同的下游任务提供基础判定结果。
例如,在进行相似站点匹配时,可以直接适用本申请的方法直接判定指定的两个独立站点是否构成相似站点,直接得出两个独立站点是否属于同一相似站群的结果,据此还可对电商平台下辖的所有独立站点进行聚类,将所有独立站点分为多种不同类型。对此,本领域技术人员可以根据具体任务要求而灵活实施。
又如,在进行相似站点推荐时,当用户访问一个独立站点时,可以根据该独立站点与电商平台下辖的其他独立站点进行匹配,应用本申请的方法,确定与用户所访问的独立站点构成相似的其他相似独立站点,然后向用户推荐所述这其他相似独立站点。
再如,在进行侵权站点监控时,应用本申请的方法,为指定的独立站点匹配出其相似独立站点,该相似独立站点便构成疑似侵权站点,将这些疑似侵权站点罗列出来,进一步经人工筛选确定即可。
根据本申请的典型实施例,可以看出,本申请具有多方面的积极优势,包括但不限于如下各方面:
首先,本申请在对不同独立站点之间的商品进行比较时,采用哈希指纹对各个商品的商品标题进行表征,所述哈希指纹为根据商品标题的分词的哈希值匹配相应的分词类型权重后转换而得的等位长二进制编码,其在分词哈希值的基础上关联了不同分词类型的权重信息,既实现对商品标题的索引和映射,又实现根据商品标题中的不同类型分词的不同重要性的语义表征,在此基础上,转换为二进制格式的哈希指纹,实现了对各个商品标题的有效的语义表示,方式简便且计算高效,在处理海量商品标题时,能取得明显的计算效率优势。
其次,在实现以哈希指纹对相应的商品标题的语义表示之后,本申请将每两个独立站点的商品标题相对应的哈希指纹进行相似度匹配,根据相似度匹配结果,判定两个独立站点是否实现匹配,从而可以用于确定两个独立站点的相似关系,例如是否构成同一类或者是否构成侵权关系等,挖掘了跨境电商服务平台下的海量商品数据的数据价值,有助于实现更丰富的下游任务,例如相似站点广告推荐、侵权站点排查、站群分类等等。
此外,本申请哈希指纹实现高效的语义表示,又将其应用于电商平台中实现广泛的独立站点内的商品标题的跨站点匹配,据此确定各个独立站点之间的相似关系,涉及的数据是海量的,但本申请的这些特点本身又能体现出其在处理海量数据时的效率优势,因此,对于电商平台而言,应用本申请的技术方案,可以取得更为明显的规模经济效应。
请参阅图2,深化的实施例中,所述步骤S1100、获取提供电商服务的至少两个独立站点各自相对应的商品标题列表,包括如下步骤:
步骤S1110、根据电商平台的站点注册库,获取站点注册库中的注册商户相对应的独立站点:
电商平台中,维护有由其提供服务的独立站点的注册信息,一般配置为一个站点注册库。在独立站点创立时,注册商户便向所述站点注册库添加该独立站点的注册信息。据此,便可调用所述的站点注册库,根据站点注册库内的注册信息,确定其中各个注册商户相对应的独立站点的商品数据库的授权访问链接,相当于获取到各个相应的独立站点。
步骤S1120、访问各个所述的独立站点的商品数据库,获取各个独立站点的商品数据库中的商品对象的商品标题:
在获得各个独立站点相对应的授权访问链接的基础上,便可通过各个独立站点相应的授权访问链接,直接访问各个独立站点的商品数据库,获取到其中的全量商品对象的商品标题。
步骤S1130、将各个独立站点的商品标题构造为该独立站点相对应的商品标题列表:
较佳的,针对每个独立站点,将前一步骤获得的全量商品标题构成为商品标题列表,采用预定的数据库格式进行存储备用即可。
本实施例中,加强了本申请应用的使用场景,突出本申请在电商平台中实施时所能取得的技术优势,具体而言,通过本实施例不难看出,对于基于独立站点的此类电商平台而言,其数量是海量且大架构的,在其中应用本申请的技术方案,能够彰显规模经济优势。
请参阅图3,深化的实施例中,所述步骤S1200、计算每个所述的商品标题列表中每个商品标题相对应的哈希指纹中的步骤中,针对每个所述的商品标题,执行如下步骤:
步骤S1210、对所述商品标题进行分词,根据各个分词命中的不同类型的分词库确定其分词类型:
为了获取商品标题的哈希指纹,需先对每个所述的商品标题进行分词。分词时,可借助基于神经网络模型实现的实体识别模型来实施。所述的实体识别模型,包括文本特征提取模块和条件随机场模块,所述的文本特征提取模块通常是基于Transformer底层网络架构实现的,可选用Lattice LSTM、Bert等适于处理序列数据的基础网络模型来担任,用于对被识别文本进行表示学习,以获得相应的文本特征向量。所述条件随机场模块,即CRF模型,基于所述文本特征向量对被识别文本进行词性标注,以便提取出其中的命名实体。因这些模型用于实施命名实体识别的技术已为本领域技术人员所熟知,故恕不赘述。当然,所述的实体识别模型在投入本申请使用之前应被事先训练至收敛状态,使其习得相应的能力,该能力使得该模型能根据本申请的商品标题编码获得的嵌入向量进行表示学习获得深层语义信息相对应的文本特征向量,并在该文本特征向量的基础上实现词性标注,根据词性标注结果获得各个命名实体。
进一步,所述实体识别模型识别获得的多个命名实体,可与多个预设的存储不同类型的分词的分词库进行匹配,以便确定出其中的命名实体属于何一分词类型。因此,每个分词库用于存储一种分词类型相对应的分词,不同分词类型指示不同性质信息,例如指示品牌词性质的分词类型、指示品名词性质的分词类型、指示适用群体词性质的分词类型、指示标识词性质的分词类型、指示杂散词性质的分词类型等。
其中,所述品牌词是指商品所属的商家的商标或者公司名称,所述商品包括注册商标或非注册商标;所述品名词是指商品的官方命名或者俗称;所述的适用群体词是指商品所适用的群体,例如{Boy;Girl;Woman;Man}等;所述的标识词是指产品型号、特殊标识等主要起简明标示作用的词汇,这些信息可以预先借助正则规则从语料库中提取获得;所述的杂散词是指诸如形式词、冗余文本等,例如{万能;自制;品质;专柜;优惠}。
不同分词类型配置有不同的分词库,每个分词库中的分词,均可通过预设的语料库进行预先提取,为本领域技术人员所知晓,恕不赘述。
由此可见,实体识别模型获得的命名实体,依其所命中的分词库不同,可被判定为不同的分词类型。对于描述商品所需的信息而言,不同的分词类型显然具有不同的重要性,例如,品牌词和品名词一般比其他分词类型更能描述商品的性质。因此,本申请中,可以通过为不同分词类型预设不同的权重,来指导其语义表示过程。
本实施例中,如上所述示例了五个分词库,实践中,本领域技术人员可依实际情况增设或减少分类词类,相应也便增加或减少分词库。
可以理解,经过本步骤,对于一个商品标题而言,便获得了其中的对应不同分词类型的多个分词。
步骤S1220、计算所述各个分词的哈希值,所述哈希值表示为二进制格式:
针对所述商品标题相对应的分词集中的每个分词,应用预设的哈希计算公式对其实施哈希映射,获得相应的哈希值,且以二进制格式表示。示例而言,可以采用256位的位长来表示所述的哈希值。应当理解,本申请所采用的哈希计算公式对所有商品标题的所有分词一致适用,以便统一结果形式。此外也不难理解,进行哈希映射的过程中,本质上也是对分词进行初步编码的过程。
步骤S1230、根据相应的分词类型为分词的哈希值按进位匹配权重,其中该进位为1时以该权重的正数形式作为结果值,为0时以该权重的负数形式作为结果值,获得结果值序列构成哈希向量:
本实施例中,如前所述,适应不同分词类型已经预设了每种分词类型也即每个具体分词库相对应的权重,例如,以五个分词类型{品牌词;品名词;适用群体词;标识词;杂散词}为例,可对应匹配权重为{5,4,3,2,1}。
然后,针对每个分词,对其哈希值按位匹配权重,如256位的哈希值表示为“11……01”,设该分词为品牌词,则其权重为5,匹配权重时,根据进位的二值表示的不同,当该进位为1时,将该权重的正数形式表示为该进位相对应的结果值;当该进位的二值表示为0时,则将该权重的负数形式表示为该进位相对应的结果值。据此,不难理解,按位计算后,将获得由此哈希值的进位顺序相对应的结果值构成的哈希向量[5,5,……,-5,5]。每个分词均能获得一个相对应的哈希向量。例如,设存在另一分词,其256位的哈希值为“10……00”,其分词类型对应的权重为3,则其哈希向量为[3,-3,……,-3,-3]。
步骤S1240、将所有分词的哈希向量进行向量加和,获得加和结果向量:
为了进一步将每一商品标题相对应的所有分词的哈希向量转换为哈希指纹,此处,可将同一商品标题的所有分词相对应的所有哈希向量进行向量加和,获得加和结果向量,例如,前一步骤的两个向量加和后获得的加和结果向量为[8,2,……,-8,2]。据此,实现将每一商品标题的所有分词的哈希值编码至同一向量中。
步骤S1250、将加和结果向量映射到二值空间,其中,将数值大于0的元素归一化为1,余者均归一化为0,从而获得所述商品标题相对应的哈希指纹:
最后,为了便于后续进行高效的运算操作,可将所述加和结果向量进一步映射到二值空间,构造出相应的哈希指纹。具体而言,可对加和结果向量的各个元素进行归一化,当一个元素的数值大于0时,便将其归一化为1;当一个元素的数值小于或等于0时,则将其归一化为0。例如,前述示例性的加和结果向量经归一化映射后,可获得向量[1,1,……,0,1],该向量即构成本申请所称的哈希指纹。
经过以上的过程,可以看出,商品标题的分词经计算哈希值、匹配权重,并经合并转换后,获得其相应的哈希指纹,所述哈希指纹被归一化为二进制格式的编码,也即对于向量而言被映射至二值空间,后续可据此进行异或运算计算各个哈希指纹之间的相似度,而基于二进制的运算效率是非常明显的。因此,本实施例实现将商品标题的文字信息转换为简便的二进制形式,实现了较高效便捷的语义表征效果。
请参阅图4,深化的实施例中,所述步骤S1300、计算每两个独立站点之间两两商品标题的哈希指纹之间的数据距离,确定两个独立站点之间的相似商品标题总数的步骤中,针对每两个独立站点,执行如下步骤:
步骤S1310、采用预设相似度计算公式,计算两个独立站点中两两商品标题的哈希指纹之间的数据距离,归一化为相似度数值:
如前所述,本申请可采用多种算法任意之一,确定其相应的相似度计算公式,用于为任意两个独立站点的商品标题计算数据距离。典型的一种方式中,可将参与计算的两个独立站点的商品标题列表分别转换为行向量和列向量,行向量和列向量中对应存储各个商品标题的哈希指纹,然后将行向量与列向量进行矩阵相乘,其矩阵相乘积所获得的相似矩阵中每一元素的数值的归一化结果即为相似度数值。
步骤S1320、将两个独立站点之间两相似度数值构造为相似矩阵,其中每个元素存储其行坐标所表示的一个独立站点的一个商品标题的哈希指纹与其列坐标所表示的另一独立站点的一个商品标题之间的相似度数值:
经前一步骤的运算,便自然构造出一个相似矩阵,该相似矩阵的行指示第一独立站点的各个商品标题,该相似矩阵的列则指示第二独立站点的各个商品标题,由此,不难理解,对于一个行向量而言,其表示第一独立站点的一个特定商品标题的哈希指纹与第二独立站点的各个商品标题的哈希指纹之间的相似度数值序列,序列中的每个元素所对应的列坐标,即为第二独立站点中的一个特定的商品标题。
步骤S1330、从所述相似矩阵中确定出两个独立站点之间相似度数值超过预设门限的相似商品标题总数:
根据所述相似矩阵的上述特点,便可应用预设的路径算法,例如最大贪心匹配算法,从中寻找出两个独立站点之间构成相似的各个两两商品标题对,每一个商品标题对便对应一个相似度数值。
进而,根据一个预设门限,该预设门限可为经验阈值或实验阈值,将所述每个商品标题对的相似度数值与该预设门限进行比较,当前者大于后者时,确定为相似商品标题,否则,确定为不相似的商品标题。
最后,统计所有构成相似商品标题的商品标题对的数量,便获得相似商品标题总数。后续根据该相似商品标题总数与预设阈值进行比较,便可进一步确定两个独立站点是否构成相似独立站点。
本实施例进一步给出了根据哈希指纹判定两个独立站点之间的相似商品标题总数的具体方式,可以看出,本实施例的过程中基于矩阵进行运算,计算效率高,实现方便,当用于对海量商品标题进行相应的运算时,能降低总体运算量,高效达到相似匹配运算的目的。
请参阅图5,扩展的实施例中,所述步骤S1400、判断每两个独立站点之间的所述相似商品标题总数是否超过预设阈值,当超过预设阈值时判定该两个独立站点为相似站点的步骤之后,包括如下步骤:
步骤S1500、响应用户访问构成相似站点的任意一个独立站点的访问事件,向该用户推送与被访问的独立站点构成相似站点的其他独立站点:
具体而言,电商平台可集中监听每个独立站点中触发的用户访问事件,当一个用户访问一个独立站点时,便触发相应的访问事件,提交给电商平台的服务器。于是,电商平台便可根据产生该访问事件的独立站点,根据应用本申请前述各实施例获得的相似站点判定结果,确定与该用户所访问的独立站点构成相似站点的其他一个或多个独立站点,构造出这些独立站点的访问信息,将这些访问信息封装为广告推送数据,将该广告推送数据发送给所述的用户。其中,所述访问信息可以包括所述独立站点预先设定的简介信息、图片信息、访问链接等,以便当其送达用户的终端设备后,由该终端设备解析显示,进而方便用户点击访问各个相似站点。
本实施例展示出本申请的技术方案的一个基础性应用,主要服务于相似站点广告推送应用场景,方便实现独立站点的冷启动,并且,也能改善用户侧的使用体验,使用户更易货比三家。
请参阅图6,适应本申请的目的之一而提供的一种电商独立站点匹配装置,是对本申请的电商独立站点匹配方法的功能化体现,该装置包括:列表获取模块1100、指纹生成模块1200、相似统计模块1300,以及站群判定模块1400,其中,所述列表获取模块1100,用于获取提供电商服务的至少两个独立站点各自相对应的商品标题列表;所述指纹生成模块1200,用于计算每个所述的商品标题列表中每个商品标题相对应的哈希指纹,所述哈希指纹为根据商品标题的分词的哈希值匹配相应的分词类型权重后转换而得的等位长二进制编码;所述相似统计模块1300,用于计算每两个独立站点之间两两商品标题的哈希指纹之间的数据距离,确定两个独立站点之间的相似商品标题总数;所述站群判定模块1400,用于判断每两个独立站点之间的所述相似商品标题总数是否超过预设阈值,当超过预设阈值时判定该两个独立站点为相似站点。
深化的实施例中,所述列表获取模块1100,包括:站点预选子模块,用于根据电商平台的站点注册库,获取站点注册库中的注册商户相对应的独立站点;名称提取子模块,用于访问各个所述的独立站点的商品数据库,获取各个独立站点的商品数据库中的商品对象的商品标题;列表构造子模块,用于将各个独立站点的商品标题构造为该独立站点相对应的商品标题列表。
深化的实施例中,所述指纹生成模块1200,包括:分词处理子模块,用于对所述商品标题进行分词,根据各个分词命中的不同类型的分词库确定其分词类型;哈希计算子模块,用于计算所述各个分词的哈希值,所述哈希值表示为二进制格式;权重匹配子模块,用于根据相应的分词类型为分词的哈希值按进位匹配权重,其中该进位为1时以该权重的正数形式作为结果值,为0时以该权重的负数形式作为结果值,获得结果值序列构成哈希向量;向量加和子模块,用于将所有分词的哈希向量进行向量加和,获得加和结果向量;归一映射子模块,用于将加和结果向量映射到二值空间,其中,将数值大于0的元素归一化为1,余者均归一化为0,从而获得所述商品标题相对应的哈希指纹。
深化的实施例中,所述相似统计模块1300,包括:相似计算子模块,用于采用预设相似度计算公式,计算两个独立站点中两两商品标题的哈希指纹之间的数据距离,归一化为相似度数值;矩阵转换子模块,用于将两个独立站点之间两相似度数值构造为相似矩阵,其中每个元素存储其行坐标所表示的一个独立站点的一个商品标题的哈希指纹与其列坐标所表示的另一独立站点的一个商品标题之间的相似度数值;总数计算子模块,用于从所述相似矩阵中确定出两个独立站点之间相似度数值超过预设门限的相似商品标题总数。
可选的实施例中,所述相似度计算公式应用如下任意一种算法:欧氏距离算法、余弦相似度算法、汉明距离算法、杰卡德算法、皮尔逊相关系数算法。
扩展的实施例中,本申请的电商独立站点匹配装置,还包括:
响应用户访问构成相似站点的任意一个独立站点的访问事件,向该用户推送与被访问的独立站点构成相似站点的其他独立站点。
为解决上述技术问题,本申请实施例还提供计算机设备。如图7所示,计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中,该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种电商独立站点匹配方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行本申请的电商独立站点匹配方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图6中的各个模块及其子模块的具体功能,存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请的电商独立站点匹配装置中执行所有模块/子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
本申请还提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行本申请任一实施例的电商独立站点匹配方法的步骤。
本申请还提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被一个或多个处理器执行时实现本申请任一实施例所述方法的步骤。
本领域普通技术人员可以理解实现本申请上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等计算机可读存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
综上所述,本申请以哈希指纹的形式对不同独立站点之间的商品标题进行统一形式的语义表征,在此基础上通过计算海量哈希指纹之间的相似数据,根据不同独立站点之间的相似数据进一步判定各独立站点之间的相似关系,运算量少,运算效率高,可服务于电商场景中的相似站点匹配、相似站点推荐、侵权站点监控等下游任务,取得规模经济效应。
本技术领域技术人员可以理解,本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种电商独立站点匹配方法,其特征在于,包括如下步骤:
获取提供电商服务的至少两个独立站点各自相对应的商品标题列表;
计算每个所述的商品标题列表中每个商品标题相对应的哈希指纹,所述哈希指纹为根据商品标题的分词的哈希值匹配相应的分词类型权重后转换而得的等位长二进制编码;
计算每两个独立站点之间两两商品标题的哈希指纹之间的数据距离,确定两个独立站点之间的相似商品标题总数;
判断每两个独立站点之间的所述相似商品标题总数是否超过预设阈值,当超过预设阈值时判定该两个独立站点为相似站点。
2.根据权利要求1所述的电商独立站点匹配方法,其特征在于,获取提供电商服务的至少两个独立站点各自相对应的商品标题列表,包括如下步骤:
根据电商平台的站点注册库,获取站点注册库中的注册商户相对应的独立站点;
访问各个所述的独立站点的商品数据库,获取各个独立站点的商品数据库中的商品对象的商品标题;
将各个独立站点的商品标题构造为该独立站点相对应的商品标题列表。
3.根据权利要求1所述的电商独立站点匹配方法,其特征在于,计算每个所述的商品标题列表中每个商品标题相对应的哈希指纹中的步骤中,针对每个所述的商品标题,执行如下步骤:
对所述商品标题进行分词,根据各个分词命中的不同类型的分词库确定其分词类型;
计算所述各个分词的哈希值,所述哈希值表示为二进制格式;
根据相应的分词类型为分词的哈希值按进位匹配权重,其中该进位为1时以该权重的正数形式作为结果值,为0时以该权重的负数形式作为结果值,获得结果值序列构成哈希向量;
将所有分词的哈希向量进行向量加和,获得加和结果向量;
将加和结果向量映射到二值空间,其中,将数值大于0的元素归一化为1,余者均归一化为0,从而获得所述商品标题相对应的哈希指纹。
4.根据权利要求1所述的电商独立站点匹配方法,其特征在于,计算每两个独立站点之间两两商品标题的哈希指纹之间的数据距离,确定两个独立站点之间的相似商品标题总数的步骤中,针对每两个独立站点,执行如下步骤:
采用预设相似度计算公式,计算两个独立站点中两两商品标题的哈希指纹之间的数据距离,归一化为相似度数值;
将两个独立站点之间两相似度数值构造为相似矩阵,其中每个元素存储其行坐标所表示的一个独立站点的一个商品标题的哈希指纹与其列坐标所表示的另一独立站点的一个商品标题之间的相似度数值;
从所述相似矩阵中确定出两个独立站点之间相似度数值超过预设门限的相似商品标题总数。
5.根据权利要求4所述的电商独立站点匹配方法,其特征在于,所述相似度计算公式应用如下任意一种算法:欧氏距离算法、余弦相似度算法、汉明距离算法、杰卡德算法、皮尔逊相关系数算法。
6.根据权利要求1至5中任意一项所述的电商独立站点匹配方法,其特征在于,判断每两个独立站点之间的所述相似商品标题总数是否超过预设阈值,当超过预设阈值时判定该两个独立站点为相似站点的步骤之后,包括如下步骤:
响应用户访问构成相似站点的任意一个独立站点的访问事件,向该用户推送与被访问的独立站点构成相似站点的其他独立站点。
7.一种电商独立站点匹配装置,其特征在于,包括:
列表获取模块,用于获取提供电商服务的至少两个独立站点各自相对应的商品标题列表;
指纹生成模块,用于计算每个所述的商品标题列表中每个商品标题相对应的哈希指纹,所述哈希指纹为根据商品标题的分词的哈希值匹配相应的分词类型权重后转换而得的等位长二进制编码;
相似统计模块,用于计算每两个独立站点之间两两商品标题的哈希指纹之间的数据距离,确定两个独立站点之间的相似商品标题总数;
站群判定模块,用于判断每两个独立站点之间的所述相似商品标题总数是否超过预设阈值,当超过预设阈值时判定该两个独立站点为相似站点。
8.一种计算机设备,包括中央处理器和存储器,其特征在于,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至6中任意一项所述的方法的步骤。
9.一种计算机可读存储介质,其特征在于,其以计算机可读指令的形式存储有依据权利要求1至6中任意一项所述的方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行相应的方法所包括的步骤。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至6任意一项中所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111547696.6A CN114219571A (zh) | 2021-12-16 | 2021-12-16 | 电商独立站点匹配方法及其装置、设备、介质、产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111547696.6A CN114219571A (zh) | 2021-12-16 | 2021-12-16 | 电商独立站点匹配方法及其装置、设备、介质、产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114219571A true CN114219571A (zh) | 2022-03-22 |
Family
ID=80703341
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111547696.6A Pending CN114219571A (zh) | 2021-12-16 | 2021-12-16 | 电商独立站点匹配方法及其装置、设备、介质、产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114219571A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115099832A (zh) * | 2022-06-29 | 2022-09-23 | 广州华多网络科技有限公司 | 异常用户检测方法及其装置、设备、介质、产品 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510887A (zh) * | 2009-03-27 | 2009-08-19 | 腾讯科技(深圳)有限公司 | 鉴别网站的方法及装置 |
CN107451879A (zh) * | 2017-06-12 | 2017-12-08 | 北京小度信息科技有限公司 | 信息判断方法及装置 |
CN108628703A (zh) * | 2018-03-19 | 2018-10-09 | 中国科学院信息工程研究所 | 一种基于视觉相似性镜像网站发现方法及系统 |
CN109710729A (zh) * | 2018-12-14 | 2019-05-03 | 麒麟合盛网络技术股份有限公司 | 一种文本数据的采集方法及装置 |
CN110891010A (zh) * | 2018-09-05 | 2020-03-17 | 百度在线网络技术(北京)有限公司 | 用于发送信息的方法和装置 |
CN112364625A (zh) * | 2020-11-19 | 2021-02-12 | 深圳壹账通智能科技有限公司 | 文本筛选方法、装置、设备及存储介质 |
-
2021
- 2021-12-16 CN CN202111547696.6A patent/CN114219571A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510887A (zh) * | 2009-03-27 | 2009-08-19 | 腾讯科技(深圳)有限公司 | 鉴别网站的方法及装置 |
CN107451879A (zh) * | 2017-06-12 | 2017-12-08 | 北京小度信息科技有限公司 | 信息判断方法及装置 |
CN108628703A (zh) * | 2018-03-19 | 2018-10-09 | 中国科学院信息工程研究所 | 一种基于视觉相似性镜像网站发现方法及系统 |
CN110891010A (zh) * | 2018-09-05 | 2020-03-17 | 百度在线网络技术(北京)有限公司 | 用于发送信息的方法和装置 |
CN109710729A (zh) * | 2018-12-14 | 2019-05-03 | 麒麟合盛网络技术股份有限公司 | 一种文本数据的采集方法及装置 |
CN112364625A (zh) * | 2020-11-19 | 2021-02-12 | 深圳壹账通智能科技有限公司 | 文本筛选方法、装置、设备及存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115099832A (zh) * | 2022-06-29 | 2022-09-23 | 广州华多网络科技有限公司 | 异常用户检测方法及其装置、设备、介质、产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112364204B (zh) | 视频搜索方法、装置、计算机设备及存储介质 | |
CN113434716B (zh) | 一种跨模态信息检索方法和装置 | |
CN113869048A (zh) | 商品对象搜索方法及其装置、设备、介质、产品 | |
CN111552788B (zh) | 基于实体属性关系的数据库检索方法、系统与设备 | |
Kumar et al. | Effective information retrieval and feature minimization technique for semantic web data | |
CN114065750A (zh) | 商品信息匹配、发布方法及其装置、设备、介质、产品 | |
CN112883070B (zh) | 一种带有差分隐私的生成式对抗网络推荐方法 | |
CN114186567A (zh) | 敏感词检测方法及其装置、设备、介质、产品 | |
CN115545832A (zh) | 商品搜索推荐方法及其装置、设备、介质 | |
CN113569933A (zh) | 商标图样匹配方法及其相应的装置、设备、介质 | |
CN115018549A (zh) | 广告文案生成方法及其装置、设备、介质、产品 | |
CN114818674A (zh) | 商品标题关键词提取方法及其装置、设备、介质、产品 | |
CN111310025B (zh) | 模型训练方法、数据处理方法、装置以及相关设备 | |
CN114547257B (zh) | 类案匹配方法、装置、计算机设备及存储介质 | |
CN114416998A (zh) | 文本标签的识别方法、装置、电子设备及存储介质 | |
CN115129913A (zh) | 敏感词挖掘方法及其装置、设备、介质 | |
CN114626926A (zh) | 商品搜索类目识别方法及其装置、设备、介质、产品 | |
CN114219571A (zh) | 电商独立站点匹配方法及其装置、设备、介质、产品 | |
CN113449109A (zh) | 安全类别标签检测方法、装置、计算机设备及存储介质 | |
CN115292603A (zh) | 商品搜索方法及其装置、设备、介质 | |
CN113947456B (zh) | 线上商铺匹配方法及其装置、设备、介质、产品 | |
CN115563280A (zh) | 商品标签标注方法及其装置、设备、介质 | |
CN116186708A (zh) | 类别识别模型生成方法、装置、计算机设备和存储介质 | |
Lu et al. | Tensor mutual information and its applications | |
CN113343684B (zh) | 核心产品词识别方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |