CN111597297A - 物品召回方法、系统、电子设备及可读存储介质 - Google Patents
物品召回方法、系统、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN111597297A CN111597297A CN201910130377.1A CN201910130377A CN111597297A CN 111597297 A CN111597297 A CN 111597297A CN 201910130377 A CN201910130377 A CN 201910130377A CN 111597297 A CN111597297 A CN 111597297A
- Authority
- CN
- China
- Prior art keywords
- article
- words
- module
- category
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000011218 segmentation Effects 0.000 claims abstract description 11
- 230000006399 behavior Effects 0.000 claims description 61
- 239000013598 vector Substances 0.000 claims description 27
- 238000001914 filtration Methods 0.000 claims description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 10
- 238000013075 data extraction Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 5
- 244000099147 Ananas comosus Species 0.000 description 2
- 235000007119 Ananas comosus Nutrition 0.000 description 2
- 241000287828 Gallus gallus Species 0.000 description 2
- 241000234295 Musa Species 0.000 description 2
- 235000015278 beef Nutrition 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 235000018290 Musa x paradisiaca Nutrition 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 235000021015 bananas Nutrition 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3325—Reformulation based on results of preceding query
- G06F16/3326—Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/01—Customer relationship services
- G06Q30/014—Providing recall services for goods or products
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3438—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment monitoring of user actions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Finance (AREA)
- Economics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Quality & Reliability (AREA)
- Computer Hardware Design (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种物品召回方法、系统、电子设备及可读存储介质,所述物品召回方法包括:获取用户的行为数据,行为数据包括点击和/或购买的物品及每个物品的物品信息;输入一检索类目词;从行为数据中提取包含检索类目词的目标行为数据;逆向关联获取目标行为数据中每个物品的检索词及每个检索词的检索频次;对目标行为数据中物品信息进行分词,得到多个物品分词;计算所有检索词与多个物品分词的相似度;判断相似度是否大于第一预设阈值,若是,则提取所有检索词中检索频次大于预设频次的检索词作为检索类目词的扩展词;根据检索类目词和扩展词进行物品召回。本发明利用获取的行为数据提取得到物品类目词的扩展词,提高了召回物品的覆盖率。
Description
技术领域
本发明属于大数据处理领域,特别涉及一种物品召回方法、系统、电子设备及可读存储介质。
背景技术
在电商领域中,经常出现需要基于物品类目去做物品召回的类似场景,比如基于类目(例如“连衣裙”)去召回一批符合要求的物品的类似场景,为了后续筛选或者排序算法可以有更大的发挥空间,我们需要在不失准确的基础上,召回尽可能多的物品。现有技术会用到文字匹配的相关方法,但对于同一物品,可能存在描述上的差异,不一定会包含该类目词,导致无法被召回。
发明内容
本发明要解决的技术问题是为了克服现有技术中由于描述差异导致物品召回效果差的缺陷,提供一种物品召回方法、系统、电子设备及可读存储介质。
本发明是通过下述技术方案来解决上述技术问题:
一种物品召回方法,所述物品召回方法包括:
获取用户的行为数据,所述行为数据包括点击和/或购买的物品及每个物品的物品信息;
输入一检索类目词;
从所述行为数据中提取包含所述检索类目词的目标行为数据;
逆向关联获取所述目标行为数据中每个物品的检索词及每个检索词的检索频次;
对所述目标行为数据中物品信息进行分词,得到多个物品分词;
计算所有检索词与所述多个物品分词的相似度;
判断所述相似度是否大于第一预设阈值,若是,则提取所述所有检索词中检索频次大于预设频次的检索词作为所述检索类目词的扩展词;
根据所述检索类目词和所述扩展词进行物品召回。
较佳地,所述逆向关联获取所述目标行为数据中每个物品的检索词及每个检索词的检索频次的步骤具体包括:
根据所述行为数据生成关系列表,所述关系列表用于表征检索词与点击和/或购买的物品的对应关系;
基于所述关系列表获取所述目标行为数据中每个物品的检索词及每个检索词的检索频次。
较佳地,所述计算所有检索词与所述多个物品分词的相似度的步骤具体包括:
对所有的检索词进行去重生成检索词集合;
对所述多个物品分词进行去重生成物品分词集合;
基于Jaccard算法(用于比较样本集之间的相似性与差异性的算法)计算所述检索词集合和所述物品分词集合的相似度。
较佳地,所述根据所述检索类目词和所述扩展词进行物品召回物品的步骤之前,所述物品召回方法还包括:
构建语料库,所述语料库包括物品推荐文章和物品基本信息;
基于word2vec(一种用于产生词向量的模型)对所述语料库进行训练,得到一词向量库,所述词向量库存储有多个物品特征词及与每个物品特征词对应的特征向量;
基于相似度算法计算所述检索类目词与每个物品特征词的相似度;
提取与所述检索类目词的相似度大于第二预设阈值的物品特征词加入所述扩展词。
较佳地,所述根据所述检索类目词和所述扩展词进行物品召回物品的步骤之前,所述物品召回方法还包括:
预设一物品类目列表,所述物品类目列表包括多个物品类目及每个物品类目下所有物品的属性;
判断所述扩展词是否包含在所述物品类目列表中,若是,则滤除包含在所述类目列表的扩展词;
所述根据所述检索类目词和所述扩展词进行物品召回的步骤具体包括:
根据滤除后的扩展词和所述检索类目词进行物品召回。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的物品召回方法。
一种可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述的物品召回方法的步骤。
一种物品召回系统,所述物品召回系统包括行为数据获取模块、输入模块、数据提取模块、检索词获取模块、分词模块、第一计算模块、第一判断模块、扩展词生成模块和召回模块;
所述行为数据获取模块用于获取用户的行为数据,所述行为数据包括点击和/或购买的物品及每个物品的物品信息;
所述输入模块用于输入一检索类目词;
所述数据提取模块用于从所述行为数据中提取包含所述检索类目词的目标行为数据;
所述检索词获取模块用于逆向关联获取所述目标行为数据中每个物品的检索词及每个检索词的检索频次;
所述分词模块用于对所述目标行为数据中物品信息进行分词,得到多个物品分词;
所述第一计算模块用于计算所有检索词与所述多个物品分词的相似度;
所述第一判断模块用于判断所述相似度是否大于第一预设阈值,若是,则调用所述扩展词生成模块;
所述扩展词生成模块用于提取所述所有检索词中检索频次大于预设频次的检索词作为所述检索类目词的扩展词;
所述召回模块用于根据所述检索类目词和所述扩展词进行物品召回。
较佳地,所述检索词获取模块用于根据所述行为数据生成关系列表,所述关系列表用于表征检索词与点击和/或购买的物品的对应关系,并基于所述关系列表获取所述目标行为数据中每个物品的检索词及每个检索词的检索频次。
较佳地,所述第一计算模块包括集合生成单元和计算单元;
所述集合生成单元用于对所有的检索词进行去重生成检索词集合,还用于对所述多个物品分词进行去重生成物品分词集合;
所述计算单元用于基于Jaccard算法计算所述检索词集合和所述物品分词集合的相似度。
较佳地,所述物品召回系统还包括语料库构建模块、词向量库生成模块和第二计算模块;
所述语料库构建模块用于构建语料库,所述语料库包括物品推荐文章和物品基本信息;
所述词向量库生成模块用于基于word2vec对所述语料库进行训练并得到一词向量库,所述词向量库存储有多个物品特征词及与每个物品特征词对应的特征向量;
所述第二计算模块用于基于相似度算法计算所述检索类目词与每个物品特征词的相似度;
所述扩展词生成模块还用于提取与所述检索类目词的相似度大于第二预设阈值的物品特征词加入所述扩展词。
较佳地,所述物品召回系统还包括第二判断模块、滤除模块和一物品类目列表,所述物品类目列表包括多个物品类目及每个物品类目下所有物品的属性;
所述第二判断模块用于判断所述扩展词是否包含在所述物品类目列表中,若是,则调用所述滤除模块;
所述滤除模块用于滤除包含在所述类目列表的扩展词;
所述召回模块用于根据滤除后的扩展词和所述检索类目词进行物品召回。
本发明的积极进步效果在于:本发明在使用类目词进行物品召回时,利用获取的行为数据提取得到物品类目词的扩展词,在确保召回精准度的同时,提高了召回物品的覆盖率。
附图说明
图1为本发明实施例1的物品召回方法的流程图。
图2为本发明实施例1的物品召回方法中步骤60的流程图。
图3为本发明实施例2的物品召回方法的流程图。
图4为本发明实施例3的电子设备的结构示意图。
图5为本发明实施例5的物品召回系统的模块示意图。
图6为本发明实施例6的物品召回系统的模块示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
一种物品召回方法,如图1所示,所述物品召回方法包括:
步骤10、获取用户的行为数据;行为数据包括点击和/或购买的物品及每个物品的物品信息;
步骤20、输入一检索类目词;
步骤30、从行为数据中提取包含检索类目词的目标行为数据;
步骤40、逆向关联获取目标行为数据中每个物品的检索词及每个检索词的检索频次;
步骤50、对目标行为数据中物品信息进行分词,得到多个物品分词;
步骤60、计算所有检索词与多个物品分词的相似度;
步骤70、判断相似度是否大于第一预设阈值,若是,则执行步骤80;若否,则表示检索词均不能作为所述检索类目词的扩展词;
步骤80、提取所有检索词中检索频次大于预设频次的检索词作为检索类目词的扩展词;
步骤90、根据检索类目词和扩展词进行物品召回。
其中,步骤40具体包括:
根据所述行为数据生成关系列表,所述关系列表用于表征检索词与点击和/或购买的物品的对应关系,并基于所述关系列表获取所述目标行为数据中每个物品的检索词及每个检索词的检索频次。
参见图2,步骤60具体包括:
步骤601、对所有的检索词进行去重生成检索词集合;
步骤602、对多个物品分词进行去重生成物品分词集合;
步骤603、基于Jaccard算法计算检索词集合和物品分词集合的相似度。
本实施例中,在使用类目词进行物品召回时,利用获取的行为数据提取得到物品类目词的扩展词,在确保召回精准度的同时,提高了召回物品的覆盖率。
实施例2
本实施例的物品召回方法是在实施例1的基础上进一步改进,如图3所示,步骤90之前,所述物品召回方法还包括:
步骤81、构建语料库,语料库包括物品推荐文章和物品基本信息;
步骤82、基于word2vec对语料库进行训练,得到一词向量库;词向量库存储有多个物品特征词及与每个物品特征词对应的特征向量;
步骤83、基于相似度算法计算检索类目词与每个物品特征词的相似度;
步骤84、提取与检索类目词的相似度大于第二预设阈值的物品特征词加入扩展词。
本实施例中,考虑到是对物品类目的扩展,基于上述方法得到的扩展词很容易扩展到邻近类目或者上级类目或者其他现有的类目,比如,“牛肉”的扩展词中有“鸡肉”,香蕉的扩展词中有“菠萝”,“电脑桌”的扩展词中有“桌子”,如果需要召回现有的类目词对应的物品,只需选取对应的现有的类目词进行物品召回即可,在本申请中,可以通过现有类目表去过滤来排除掉这些扩展词,参见图3,步骤90之前,所述物品召回方法还包括:
步骤85、预设一物品类目列表,物品类目列表包括多个物品类目及每个物品类目下所有物品的属性;
步骤86、判断扩展词是否包含在物品类目列表中,若是,则执行步骤87;
步骤87、滤除包含在类目列表的扩展词;
进一步的,步骤90具体包括:
根据滤除后的扩展词和检索类目词进行物品召回。
本实施例中,利用各个平台的物品推荐文章、物品名称等作为语料,训练word2vec模型,并基于训练的模型产出特征词及对应的词向量,再基于相似度计算得到相似度最高的若干词作为检索类目词的扩展词,与上述利用行为数据进程检索类目词的扩展相辅相成,进一步增加召回的覆盖率。
实施例3
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现实施例1或2中任意一个实施例所述的物品召回方法。
图4为本实施例提供的一种电子设备的结构示意图。图4示出了适于用来实现本发明实施方式的示例性电子设备90的框图。图4显示的电子设备90仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,电子设备90可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备90的组件可以包括但不限于:至少一个处理器91、至少一个存储器92、连接不同系统组件(包括存储器92和处理器91)的总线93。
总线93包括数据总线、地址总线和控制总线。
存储器92可以包括易失性存储器,例如随机存取存储器(RAM)921和/或高速缓存存储器922,还可以进一步包括只读存储器(ROM)923。
存储器92还可以包括具有一组(至少一个)程序模块924的程序工具925,这样的程序模块924包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器91通过运行存储在存储器92中的计算机程序,从而执行各种功能应用以及数据处理。
电子设备90也可以与一个或多个外部设备94(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口95进行。并且,电子设备90还可以通过网络适配器96与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器96通过总线93与电子设备90的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备90使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例4
一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例1或2中任意一个实施例所述的物品召回方法的步骤。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现实施例1或2中任意一个实施例所述的物品召回方法的步骤。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
实施例5
一种物品召回系统,如图5所示,所述物品召回系统包括行为数据获取模块11、输入模块12、数据提取模块13、检索词获取模块14、分词模块15、第一计算模块16、第一判断模块17、扩展词生成模块18和召回模块19;
所述行为数据获取模块11用于获取用户的行为数据,所述行为数据包括点击和/或购买的物品及每个物品的物品信息;
所述输入模块12用于输入一检索类目词;
所述数据提取模块13用于从所述行为数据中提取包含所述检索类目词的目标行为数据;
所述检索词获取模块14用于逆向关联获取所述目标行为数据中每个物品的检索词及每个检索词的检索频次;具体的,所述检索词获取模块14用于根据所述行为数据生成关系列表,所述关系列表用于表征检索词与点击和/或购买的物品的对应关系,并基于所述关系列表获取所述目标行为数据中每个物品的检索词及每个检索词的检索频次。
所述分词模块15用于对所述目标行为数据中物品信息进行分词,得到多个物品分词;
所述第一计算模块16用于计算所有检索词与所述多个物品分词的相似度;
其中,所述第一计算模块16包括集合生成单元161和计算单元162;
所述集合生成单元161用于对所有的检索词进行去重生成检索词集合,还用于对所述多个物品分词进行去重生成物品分词集合;
所述计算单元162用于基于Jaccard算法计算所述检索词集合和所述物品分词集合的相似度。
所述第一判断模块17用于判断所述相似度是否大于第一预设阈值,若是,则调用所述扩展词生成模块18;
所述扩展词生成模块18用于提取所述所有检索词中检索频次大于预设频次的检索词作为所述检索类目词的扩展词;
所述召回模块19用于根据所述检索类目词和所述扩展词进行物品召回。
本实施例中,在使用类目词进行物品召回时,利用获取的行为数据提取得到物品类目词的扩展词,在确保召回精准度的同时,提高了召回物品的覆盖率。
实施例6
本实施例的物品召回系统是在实施例5的基础上进一步改进,如图6所示,所述物品召回系统还包括语料库构建模块21、词向量库生成模块22和第二计算模块23;
所述语料库构建模块21用于构建语料库,所述语料库包括物品推荐文章和物品基本信息;
所述词向量库生成模块22用于基于word2vec对所述语料库进行训练并得到一词向量库,所述词向量库存储有多个物品特征词及与每个物品特征词对应的特征向量;
所述第二计算模块23用于基于相似度算法计算所述检索类目词与每个物品特征词的相似度;
所述扩展词生成模块18还用于提取与所述检索类目词的相似度大于第二预设阈值的物品特征词加入所述扩展词。
本实施例中,考虑到是对物品类目的扩展,基于上述方法得到的扩展词很容易扩展到邻近类目或者上级类目或者其他现有的类目,比如,“牛肉”的扩展词中有“鸡肉”,香蕉的扩展词中有“菠萝”,“电脑桌”的扩展词中有“桌子”,如果需要召回现有的类目词对应的物品,只需选取对应的现有的类目词进行物品召回即可,在本申请中,可以通过现有类目表去过滤来排除掉这些扩展词,参见图6,所述物品召回系统还包括第二判断模块25、滤除模块26和一物品类目列表24,所述物品类目列表24包括多个物品类目及每个物品类目下所有物品的属性;
所述第二判断模块25用于判断所述扩展词是否包含在所述物品类目列表24中,若是,则调用所述滤除模块26;
所述滤除模块26用于滤除包含在所述类目列表的扩展词;
所述召回模块19用于根据滤除后的扩展词和所述检索类目词进行物品召回。
本实施例中,利用各个平台的物品推荐文章、物品名称等作为语料,训练word2vec模型,并基于训练的模型产出特征词及对应的词向量,再基于相似度计算得到相似度最高的若干词作为检索类目词的扩展词,与上述利用行为数据进程检索类目词的扩展相辅相成,进一步增加召回的覆盖率。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (12)
1.一种物品召回方法,其特征在于,所述物品召回方法包括:
获取用户的行为数据,所述行为数据包括点击和/或购买的物品及每个物品的物品信息;
输入一检索类目词;
从所述行为数据中提取包含所述检索类目词的目标行为数据;
逆向关联获取所述目标行为数据中每个物品的检索词及每个检索词的检索频次;
对所述目标行为数据中物品信息进行分词,得到多个物品分词;
计算所有检索词与所述多个物品分词的相似度;
判断所述相似度是否大于第一预设阈值,若是,则提取所述所有检索词中检索频次大于预设频次的检索词作为所述检索类目词的扩展词;
根据所述检索类目词和所述扩展词进行物品召回。
2.如权利要求1所述的物品召回方法,其特征在于,所述逆向关联获取所述目标行为数据中每个物品的检索词及每个检索词的检索频次的步骤具体包括:
根据所述行为数据生成关系列表,所述关系列表用于表征检索词与点击和/或购买的物品的对应关系;
基于所述关系列表获取所述目标行为数据中每个物品的检索词及每个检索词的检索频次。
3.如权利要求1所述的物品召回方法,其特征在于,所述计算所有检索词与所述多个物品分词的相似度的步骤具体包括:
对所有的检索词进行去重生成检索词集合;
对所述多个物品分词进行去重生成物品分词集合;
基于Jaccard算法计算所述检索词集合和所述物品分词集合的相似度。
4.如权利要求1所述的物品召回方法,其特征在于,所述根据所述检索类目词和所述扩展词进行物品召回物品的步骤之前,所述物品召回方法还包括:
构建语料库,所述语料库包括物品推荐文章和物品基本信息;
基于word2vec对所述语料库进行训练,得到一词向量库,所述词向量库存储有多个物品特征词及与每个物品特征词对应的特征向量;
基于相似度算法计算所述检索类目词与每个物品特征词的相似度;
提取与所述检索类目词的相似度大于第二预设阈值的物品特征词加入所述扩展词。
5.如权利要求4所述的物品召回方法,其特征在于,所述根据所述检索类目词和所述扩展词进行物品召回物品的步骤之前,所述物品召回方法还包括:
预设一物品类目列表,所述物品类目列表包括多个物品类目及每个物品类目下所有物品的属性;
判断所述扩展词是否包含在所述物品类目列表中,若是,则滤除包含在所述类目列表的扩展词;
所述根据所述检索类目词和所述扩展词进行物品召回的步骤具体包括:
根据滤除后的扩展词和所述检索类目词进行物品召回。
6.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5任一项所述的物品召回方法。
7.一种可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至5任一项所述的物品召回方法的步骤。
8.一种物品召回系统,其特征在于,所述物品召回系统包括行为数据获取模块、输入模块、数据提取模块、检索词获取模块、分词模块、第一计算模块、第一判断模块、扩展词生成模块和召回模块;
所述行为数据获取模块用于获取用户的行为数据,所述行为数据包括点击和/或购买的物品及每个物品的物品信息;
所述输入模块用于输入一检索类目词;
所述数据提取模块用于从所述行为数据中提取包含所述检索类目词的目标行为数据;
所述检索词获取模块用于逆向关联获取所述目标行为数据中每个物品的检索词及每个检索词的检索频次;
所述分词模块用于对所述目标行为数据中物品信息进行分词,得到多个物品分词;
所述第一计算模块用于计算所有检索词与所述多个物品分词的相似度;
所述第一判断模块用于判断所述相似度是否大于第一预设阈值,若是,则调用所述扩展词生成模块;
所述扩展词生成模块用于提取所述所有检索词中检索频次大于预设频次的检索词作为所述检索类目词的扩展词;
所述召回模块用于根据所述检索类目词和所述扩展词进行物品召回。
9.如权利要求8所述的物品召回系统,其特征在于,所述检索词获取模块用于根据所述行为数据生成关系列表,所述关系列表用于表征检索词与点击和/或购买的物品的对应关系,并基于所述关系列表获取所述目标行为数据中每个物品的检索词及每个检索词的检索频次。
10.如权利要求8所述的物品召回系统,其特征在于,所述第一计算模块包括集合生成单元和计算单元;
所述集合生成单元用于对所有的检索词进行去重生成检索词集合,还用于对所述多个物品分词进行去重生成物品分词集合;
所述计算单元用于基于Jaccard算法计算所述检索词集合和所述物品分词集合的相似度。
11.如权利要求8所述的物品召回系统,其特征在于,所述物品召回系统还包括语料库构建模块、词向量库生成模块和第二计算模块;
所述语料库构建模块用于构建语料库,所述语料库包括物品推荐文章和物品基本信息;
所述词向量库生成模块用于基于word2vec对所述语料库进行训练并得到一词向量库,所述词向量库存储有多个物品特征词及与每个物品特征词对应的特征向量;
所述第二计算模块用于基于相似度算法计算所述检索类目词与每个物品特征词的相似度;
所述扩展词生成模块还用于提取与所述检索类目词的相似度大于第二预设阈值的物品特征词加入所述扩展词。
12.如权利要求11所述的物品召回系统,其特征在于,所述物品召回系统还包括第二判断模块、滤除模块和一物品类目列表,所述物品类目列表包括多个物品类目及每个物品类目下所有物品的属性;
所述第二判断模块用于判断所述扩展词是否包含在所述物品类目列表中,若是,则调用所述滤除模块;
所述滤除模块用于滤除包含在所述类目列表的扩展词;
所述召回模块用于根据滤除后的扩展词和所述检索类目词进行物品召回。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910130377.1A CN111597297A (zh) | 2019-02-21 | 2019-02-21 | 物品召回方法、系统、电子设备及可读存储介质 |
US17/296,159 US11907659B2 (en) | 2019-02-21 | 2020-01-02 | Item recall method and system, electronic device and readable storage medium |
PCT/CN2020/070014 WO2020168839A1 (zh) | 2019-02-21 | 2020-01-02 | 物品召回方法、系统、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910130377.1A CN111597297A (zh) | 2019-02-21 | 2019-02-21 | 物品召回方法、系统、电子设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111597297A true CN111597297A (zh) | 2020-08-28 |
Family
ID=72144286
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910130377.1A Pending CN111597297A (zh) | 2019-02-21 | 2019-02-21 | 物品召回方法、系统、电子设备及可读存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11907659B2 (zh) |
CN (1) | CN111597297A (zh) |
WO (1) | WO2020168839A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112150251A (zh) * | 2020-10-09 | 2020-12-29 | 北京明朝万达科技股份有限公司 | 物品名称治理方法和装置 |
CN113762535A (zh) * | 2021-03-18 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 一种物品召回方法和装置 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329954B (zh) * | 2020-11-04 | 2024-06-11 | 中国平安人寿保险股份有限公司 | 物品召回方法、装置、终端设备及存储介质 |
CN113763114B (zh) * | 2021-03-04 | 2024-07-16 | 北京沃东天骏信息技术有限公司 | 物品信息搭配方法、装置及存储介质 |
CN114443989B (zh) * | 2022-01-30 | 2023-02-03 | 北京百度网讯科技有限公司 | 排序方法、排序模型的训练方法、装置、电子设备及介质 |
CN114881108A (zh) * | 2022-03-30 | 2022-08-09 | 新华智云科技有限公司 | 一种商品推荐的召回方法、装置、设备及存储介质 |
CN117056459B (zh) * | 2023-08-07 | 2024-05-10 | 北京网聘信息技术有限公司 | 一种向量召回方法和装置 |
CN117093604B (zh) * | 2023-10-20 | 2024-02-02 | 中信证券股份有限公司 | 检索信息生成方法、装置、电子设备和计算机可读介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101281523A (zh) * | 2007-04-25 | 2008-10-08 | 北大方正集团有限公司 | 查询扩展方法和装置以及相关检索词库 |
CN103577432A (zh) * | 2012-07-26 | 2014-02-12 | 阿里巴巴集团控股有限公司 | 一种商品信息搜索方法和系统 |
JP2014153744A (ja) * | 2013-02-05 | 2014-08-25 | Nippon Hoso Kyokai <Nhk> | 情報検索装置及び情報検索プログラム |
CN105183733A (zh) * | 2014-06-05 | 2015-12-23 | 阿里巴巴集团控股有限公司 | 一种文本信息的匹配、业务对象的推送方法和装置 |
CN108664637A (zh) * | 2018-05-15 | 2018-10-16 | 惠龙易通国际物流股份有限公司 | 一种检索方法及系统 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6098033A (en) * | 1997-07-31 | 2000-08-01 | Microsoft Corporation | Determining similarity between words |
US7343280B2 (en) * | 2003-07-01 | 2008-03-11 | Microsoft Corporation | Processing noisy data and determining word similarity |
JP4446313B2 (ja) | 2006-12-15 | 2010-04-07 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声処理用の辞書に登録するべき新規語句を検索する技術 |
US8768852B2 (en) * | 2009-01-13 | 2014-07-01 | Amazon Technologies, Inc. | Determining phrases related to other phrases |
US8655648B2 (en) * | 2010-09-01 | 2014-02-18 | Microsoft Corporation | Identifying topically-related phrases in a browsing sequence |
CN103729359B (zh) * | 2012-10-12 | 2017-03-01 | 阿里巴巴集团控股有限公司 | 一种推荐搜索词的方法及系统 |
CN104636334A (zh) | 2013-11-06 | 2015-05-20 | 阿里巴巴集团控股有限公司 | 一种关键词推荐方法和装置 |
US20160070803A1 (en) * | 2014-09-09 | 2016-03-10 | Funky Flick, Inc. | Conceptual product recommendation |
CN106874492B (zh) * | 2017-02-23 | 2021-01-26 | 北京京东尚科信息技术有限公司 | 搜索方法和装置 |
US10747792B2 (en) * | 2017-11-30 | 2020-08-18 | Bby Solutions, Inc. | Streaming events analysis for search recall improvements |
US11562011B2 (en) * | 2018-10-29 | 2023-01-24 | EMC IP Holding Company LLC | Incorporating data into search engines using deep learning mechanisms |
-
2019
- 2019-02-21 CN CN201910130377.1A patent/CN111597297A/zh active Pending
-
2020
- 2020-01-02 WO PCT/CN2020/070014 patent/WO2020168839A1/zh active Application Filing
- 2020-01-02 US US17/296,159 patent/US11907659B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101281523A (zh) * | 2007-04-25 | 2008-10-08 | 北大方正集团有限公司 | 查询扩展方法和装置以及相关检索词库 |
CN103577432A (zh) * | 2012-07-26 | 2014-02-12 | 阿里巴巴集团控股有限公司 | 一种商品信息搜索方法和系统 |
JP2014153744A (ja) * | 2013-02-05 | 2014-08-25 | Nippon Hoso Kyokai <Nhk> | 情報検索装置及び情報検索プログラム |
CN105183733A (zh) * | 2014-06-05 | 2015-12-23 | 阿里巴巴集团控股有限公司 | 一种文本信息的匹配、业务对象的推送方法和装置 |
CN108664637A (zh) * | 2018-05-15 | 2018-10-16 | 惠龙易通国际物流股份有限公司 | 一种检索方法及系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112150251A (zh) * | 2020-10-09 | 2020-12-29 | 北京明朝万达科技股份有限公司 | 物品名称治理方法和装置 |
CN113762535A (zh) * | 2021-03-18 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 一种物品召回方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2020168839A1 (zh) | 2020-08-27 |
US20220019739A1 (en) | 2022-01-20 |
US11907659B2 (en) | 2024-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11907659B2 (en) | Item recall method and system, electronic device and readable storage medium | |
CN109948121A (zh) | 文章相似度挖掘方法、系统、设备及存储介质 | |
CN113590645B (zh) | 搜索方法、装置、电子设备及存储介质 | |
CN111428493A (zh) | 实体关系获取方法、装置、设备及存储介质 | |
JP2005158010A (ja) | 分類評価装置・方法及びプログラム | |
CN112784009B (zh) | 一种主题词挖掘方法、装置、电子设备及存储介质 | |
CN112633000B (zh) | 一种文本中实体的关联方法、装置、电子设备及存储介质 | |
CN104484380A (zh) | 个性化搜索方法及装置 | |
CN112395881B (zh) | 物料标签的构建方法、装置、可读存储介质及电子设备 | |
CN110597978A (zh) | 物品摘要生成方法、系统、电子设备及可读存储介质 | |
US8290925B1 (en) | Locating product references in content pages | |
CN110717092B (zh) | 为文章匹配对象的方法、系统、设备及存储介质 | |
CN112506864A (zh) | 文件检索的方法、装置、电子设备及可读存储介质 | |
CN113569018A (zh) | 问答对挖掘方法及装置 | |
CN113660541A (zh) | 新闻视频的摘要生成方法及装置 | |
JP6079270B2 (ja) | 情報提供装置 | |
CN113988157A (zh) | 语义检索网络训练方法、装置、电子设备及存储介质 | |
CN111738009B (zh) | 实体词标签生成方法、装置、计算机设备和可读存储介质 | |
CN117971698A (zh) | 测试用例生成方法、装置、电子设备和存储介质 | |
CN111339778B (zh) | 文本处理方法、装置、存储介质和处理器 | |
CN110781365A (zh) | 商品搜索方法、装置、系统及电子设备 | |
JP2013222418A (ja) | パッセージ分割方法、装置、及びプログラム | |
CN112115362B (zh) | 一种基于相似代码识别的编程信息推荐方法及装置 | |
CN115391656A (zh) | 一种用户需求确定方法、装置及设备 | |
CN112926297B (zh) | 处理信息的方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |