CN115114994A - 商品类目信息的确定方法及其装置 - Google Patents

商品类目信息的确定方法及其装置 Download PDF

Info

Publication number
CN115114994A
CN115114994A CN202210831158.8A CN202210831158A CN115114994A CN 115114994 A CN115114994 A CN 115114994A CN 202210831158 A CN202210831158 A CN 202210831158A CN 115114994 A CN115114994 A CN 115114994A
Authority
CN
China
Prior art keywords
product
product word
commodity
words
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210831158.8A
Other languages
English (en)
Inventor
周明龙
张雄伟
陶通
李勇
苏潇
包勇军
颜伟鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN202210831158.8A priority Critical patent/CN115114994A/zh
Publication of CN115114994A publication Critical patent/CN115114994A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Finance (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Accounting & Taxation (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提出一种商品类目信息的确定方法及其装置,其中,商品类目信息的确定方法包括:获取样本商品对应的多个第一目标产品词,基于第一目标产品词之间的上下位关系构建商品类目体系,根据商品类目体系确定待匹配商品的类目信息。商品的产品词用于定义该商品,能够体现商品的类别和本质属性,该方法基于商品的产品词进行商品类目体系构建,构建好的商品类目体系中包含全部样本商品的类目信息,这些类目基于商品本身的定义划分,能够更好地适用于搜索和推荐等其他新电商场景,待匹配商品可以基于商品类目体系,与样本商品的类目信息进行匹配,从而确定该待匹配商品的类目信息,降低商品类目信息确定和更新的成本。

Description

商品类目信息的确定方法及其装置
技术领域
本申请涉及数据分析技术领域,尤其涉及一种商品类目信息的确定方法及其装置。
背景技术
商品类目是商品管理系统的主数据之一,电商平台根据一定的管理目的,为满足商品生产、流通以及消费活动的需要,将全部商品进行商品分类,逐次归纳为若干个范围更小、特质更趋一致的子集合体(类目),例如大类、中类、小类、细类,直至品种、细目等,从而使该范围内所有商品得以明确区分。
随着数智化,电商平台面对的场景不仅仅再是单一的商品销售,还存在更多和用户的交互场景,比如推荐和搜索,但是这些场景与原始的业务经营销售场景相比,对和商品类目和类目体系的需求不一致,需要基于商品本质品类的类目信息,以描述商品本质所属。
相关技术中,商品类目信息确定和更新的成本较高,且商品类目多针对业务销售场景来划分,对于搜索、推荐和广告等其他新电商场景的适用性不高。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种商品类目信息的确定方法。
本申请的第二个目的在于提出一种商品类目信息的确定装置。
本申请的第三个目的在于提出一种电子设备。
本申请的第四个目的在于提出一种非瞬时计算机可读存储介质。
本申请的第五个目的在于提出一种计算机程序产品。
为达上述目的,本申请第一方面实施例提出了一种商品类目信息的确定方法,包括:获取样本商品对应的多个第一目标产品词;基于所述第一目标产品词之间的上下位关系构建商品类目体系;根据所述商品类目体系确定待匹配商品的类目信息。
本申请获取样本商品对应的多个第一目标产品词;基于第一目标产品词之间的上下位关系构建商品类目体系;根据商品类目体系确定待匹配商品的类目信息。商品的产品词用于定义该商品,能够体现商品的类别和本质属性,该方法基于商品的产品词进行商品类目体系构建,构建好的商品类目体系中包含全部样本商品的类目信息,这些类目基于商品本身的定义划分,能够更好地适用于搜索、推荐和广告等其他新电商场景,待匹配商品可以基于商品类目体系与样本商品的类目信息进行匹配,从而确定该待匹配商品的类目信息,降低商品类目信息确定和更新的成本。
为达上述目的,本申请第二方面实施例提出了一种商品类目信息的确定装置,包括:获取模块,用于获取样本商品对应的多个第一目标产品词;构建模块,用于基于所述第一目标产品词之间的上下位关系构建商品类目体系;确定模块,用于根据所述商品类目体系确定待匹配商品的类目信息。
本申请获取样本商品对应的多个第一目标产品词;基于第一目标产品词之间的上下位关系构建商品类目体系;根据商品类目体系确定待匹配商品的类目信息。商品的产品词用于定义该商品,能够体现商品的类别和基本属性,该方法基于商品的产品词进行商品类目体系构建,构建好的商品类目体系中包含全部样本商品的类目信息,这些类目基于商品本身的定义划分,能够更好地适用于搜索、推荐和广告等其他新电商场景,待匹配商品可以基于商品类目体系与样本商品的类目信息进行匹配,从而确定该待匹配商品的类目信息,降低商品类目信息确定和更新的成本。
为达上述目的,本申请第三方面实施例提出了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以实现如本申请第一方面实施例所述的商品类目信息的确定方法。
为达上述目的,本申请第四方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于实现如本申请第一方面实施例所述的商品类目信息的确定方法。
为达上述目的,本申请第五方面实施例提出了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时用于实现如本申请第一方面实施例所述的商品类目信息的确定方法。
附图说明
图1为本申请一实施例提供的商品类目信息的确定方法的流程示意图;
图2为本申请另一实施例提供的商品类目信息的确定方法的流程示意图;
图3为本申请另一实施例提供的商品类目信息的确定方法的流程示意图;
图4为本申请另一实施例提供的商品类目信息的确定方法的流程示意图;
图5为本申请一实施例提供的商品类目信息的确定方法中同义词判定二分模型的示意图;
图6为本申请另一实施例提供的商品类目信息的确定方法的流程示意图;
图7为本申请一实施例提供的商品类目信息的确定方法中上下位关系抽取模型的示意图;
图8为本申请一实施例提供的商品类目信息的确定方法商品类目体系的部分示意图;
图9为本申请另一实施例提供的商品类目信息的确定方法的流程示意图;
图10为本申请一实施例提供的商品类目信息的确定方法的整体流程示意图;
图11为本申请提出的一种商品类目信息的确定装置的框图;
图12为本申请提供的电子设备的框图。
具体实施方式
下面详细描述本申请的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
图1为本申请一实施例提供的商品类目信息的确定方法的流程示意图,本申请实施例的商品类目信息的确定方法,可由本申请实施例提供的商品类目信息的确定装置执行,该商品类目信息的确定装置可以设置终端和服务器等电子设备中。如图1所示,本申请实施例的商品类目信息的确定方法包括以下步骤:
S101,获取样本商品对应的多个第一目标产品词。
本申请实施例以电商平台为例,样本商品为电商平台商品库中的主要商品或者平台积累的大量商品,样本商品中的一件商品通常对应一个或多个产品词,这些产品词分属于不同的粒度,如外套<卫衣、裤子<小脚裤,这些产品词能够体现商品的本质属性和所属品类,本申请将这些产品词作为第一目标产品词。
S102,基于第一目标产品词之间的上下位关系构建商品类目体系。
在本申请实施例中,可以通过识别任意两个第一目标产品词之间是否存在上下位关系,以及对存在上下位关系的两个第一目标产品词区分出上位产品词词和下位产品词,基于第一目标产品词之间的上下位关系构建不同的类目分支,以此形成商品类目体系。
S103,根据商品类目体系确定待匹配商品的类目信息。
在本申请实施例中,对于待匹配的商品,可以基于构建好的商品类目体系,确定该待匹配商品所属的类目,待匹配商品的类目信息还可以包括该待匹配商品在不同粒度下对应的类目,例如苹果对应的类目:水果<果类<苹果。
本申请实施例提出了一种商品类目信息的确定方法,获取样本商品对应的多个第一目标产品词,基于第一目标产品词之间的上下位关系构建商品类目体系,根据商品类目体系确定待匹配商品的类目信息。商品的产品词用于定义该商品,能够体现商品的类别和本质属性,该方法基于商品的产品词进行商品类目体系构建,构建好的商品类目体系中包含全部样本商品的类目信息,这些类目基于商品本身的定义划分,能够更好地适用于搜索和推荐等其他新电商场景,待匹配商品可以基于商品类目体系,与样本商品的类目信息进行匹配,从而确定该待匹配商品的类目信息,降低商品类目信息确定和更新的成本。
在上述实施例的基础上,如图2所示,上述步骤S101中“获取样本商品对应的多个第一目标产品词”可包括以下步骤:
S201,基于预设词性标签对样本商品对应的文本信息进行词性标注。
在本申请实施例中,样本商品对应的文本信息可以为电商平台内商品的商品标题和搜索日志等已知文本信息,根据这些文本信息的特性,整理文本信息中的分词可能隶属的词性标签或者所需的词性标签,如针对电商场景,词性标签可以为:品牌词、型号词、产品词、适用事件、适用时间、适用地点、适用人群、其他适用对象、功能属性、材质属性、样式属性、风格属性、产地属性、颜色属性、味道属性和规格属性等。可以将这些词性标签作为预设词性标签对样本商品对应的文本信息进行词性标注。
在一些实施例中,可以利用词性标注模型对大小写统一转换过的文本信息进行词性标注,例如可以利用结巴(jieba)切词,语言技术平台(Language Technology Platform,简称LTP)等分词工具对文本信息进行分词处理后再使用双向长短记忆网络中的CRF层(BilSTM-CRF)或使用编码器进行命名实体识别(Transformer Encoder for Name EntityRecognition,简称TENER)等模型进行词性标注(命名实体识别),或基于已有文本信息对预训练的语言表征模型(Bidirectional Encoder Representation from Transformers,简称BERT)进行预训练后,无需分词直接使用BERT+CRF等模型进行词性标注。如表1所示,对商品标题进行分词处理后,基于预设词性标签对每个分词进行词性标注。
表1-商品标题词性标注示例表
Figure BDA0003748430800000041
S202,从词性标注后的文本信息中筛选出多个第一候选产品词。
从词性标注后的文本信息中,筛选出词性为产品词的名词,将这些名词作为第一候选产品词,如表1中的卫衣和外套。
S203,对多个第一候选产品词进行同义合并,得到多个第一目标产品词。
在本申请实施例中,电商平台的部分文本信息为商家或用户等人工输入的,但不同商家或用户有不同书写习惯,或有意无意输入错别字等,如洗发水、洗头水、洗发液和洗发夜等同义词,导致获取的第一候选产品词存在碎片化及重复的问题,因此我们需要对同一商品的不同表达形式的第一候选产品词进行同义合并,保证商品类目体系各分支的独立性。
在一些实施例中,可以通过判断任意两个第一候选产品词之间是否为同义词,将是同义词的两个第一候选产品词合并为一个名词,即用一个名词表示,从而得到同义性较低的多个第一目标产品词。
在上述实施例的基础上,如图3所示,上述步骤S203中“对多个第一候选产品词进行同义合并,得到多个第一目标产品词”可以包括以下步骤:
S301,根据第一候选产品词之间的相似度分数,确定多个相似产品词对。
在本申请实施例中,通过对第一候选产品词进行向量化表征来计算第一候选产品词之间的相似度分数,例如基于第一候选产品词对应的第一表征向量,计算任意两个第一候选产品词对应的第一表征向量的向量距离来确定任意两个第一候选产品词之间的相似度分数,将相似度分数大于第一阈值的任意两个第一候选产品词确定为相似产品词对。其中,向量距离可以包括但不限于余弦距离和欧氏距离等。
在一些实施例中,为了更全面的对第一候选产品词进行表征,我们从语义和行为两方面获取第一候选产品词的表征向量(Embedding),可以将第一候选产品词的语义表征向量(语义Embedding)和行为表征向量(行为Embedding)进行拼接,以此生成上述第一表征向量。
其中,语义Embedding可以基于无监督词向量模型获取,其中无监督词向量模型包括但不限于词向量模型(word2vec)、文本分类(fasttext)和BERT等。
行为Embedding可以基于搜索行为,如搜索(query)式,获取。具体步骤为:获取在第一候选产品词对应的搜索行为下,用户点击商品的商品标题等文本信息;对商品标题进行关键词提取,得到关键词表征分词;获取关键词表征分词的语义表征向量;将关键词表征分词的语义表征向量的加权和作为第一候选产品词的行为表征向量。
例如,基于包含第一候选产品词的搜索式,在电商平台进行商品搜索,获取该搜索行为下用户点击的商品序列,从而得到用户点击商品的商品标题,然后利用无监督关键词提取方法获取第一候选产品词的关键表征分词,最后利用关键表征分词的语义Embedding的加权和,来表征第一候选产品词的行为Embedding,其中无监督关键词提取方法可以包括但不限于基于词频-逆文档频率(Term Frequency-InverseDocumentFrequency,简称TF-IDF),关键词提取和摘要算法(TextRank)和隐含狄利克雷分配模型(Latent DirichletAllocation,简称LDA)等进行关键词提取。
对第一候选产品词的语义表征向量和行为表征向量进行拼接,例如将维度为25的语义表征向量和维度为25的行为表征向量拼接为维度为50的第一表征向量。
例如,用户输入“手机”进行搜索后会出现很多跟手机相关的商品,把用户点击过的商品的标题获取过来进行关键词提取,选取在这些商品标题中出现的频次排名前30%的关键词,将这些关键词作为“手机”在搜索行为下的关键表征分词,对这些关键表征分词进行语义表征得到关键表征分词的语义表征向量。
在一些实施例中,通过计算任意两个第一候选产品词的第一表征向量之间的余弦举例来表征两个第一候选产品词之间的相似度,将余弦值作为相似度分数,其中相似度分数的计算公式如下:
Figure BDA0003748430800000061
Figure BDA0003748430800000062
其中,产品词1和产品词2为任意两个第一候选产品词,Y为任意第一候选产品词的第一表征向量,θ为两个第一表征向量的夹角,X为基于无监督词向量模型获取的语义表征向量(X产品词1为产品词1的语义表征向量,X产品词1的关键表征分词i为产品词1对应的第i个关键表征分词的语义表征向量),n为产品词1基于搜索行为的关键表征分词的个数,这里可以根据经验选取n为30、50等。
结果举例为,假设语义表征向量和行为表征向量的向量维度为25,则第一表征向量的向量维度为50,第一候选产品词“洗发水”、“洗头水”、“沐浴露”的向量化表示如下表2所示,计算得到第一候选产品词对[洗发水,洗头水]的余弦距离为0.9512,第一候选产品词对[洗发水,沐浴露]的余弦距离为0.8730,向量距离表明第一候选产品词对[洗发水,洗头水]的相似度明显高于第一候选产品词对[洗发水,沐浴露]。
表2-第一候选产品词向量化表示结果举例表
Figure BDA0003748430800000063
Figure BDA0003748430800000071
S302,基于同义词判别模型,从多个相似产品词对中筛选出多个同义产品词对。
在一些实施例中,相似产品词对可能为相似词,也可能为同义词,需要对得到的多个相似产品词对进行筛选,得到同义产品词对。
在一些实施例中,可以基于主动学习的方法迭代训练模型,得到同义词判别模型,例如线性模型和深度模型(Wide&Deep模型)。不难理解的,主动学习的方法指先利用小数量级的标注数据进行训练,然后对训练打分,按照分数排序后将位于中间段的样本,再进行标注并更新数据集,然后再进行训练,以此迭代直到模型指标满足要求。
S303,将每个同义产品词对归一为一个第二候选产品词。
在本申请实施例中,对同义产品词进行归一,将同义产品词对中的两个同义产品词用一个产品词表示,该产品词作为第二候选产品词,以此得到具有较低同义性的多个第二候选产品词。
S304,根据第二候选产品词的商品覆盖量和第二候选产品词在搜索行为下出现的频次,从多个第二候选产品词中选取多个第一目标产品词。
实际中,电商平台的产品词数量可达几十万级别,如此量级的类目体系在实际应用时会过于庞大复杂。此外产品词对商品的覆盖情况为长尾分布,即大概排名前2万的产品词覆盖了平台98%的商品,该排名可以为产品词在平台全部商品标题中出现的频次排名,因此通过对获取的第二候选产品词进行筛选,以获取电商平台主要产品词,用于构建商品类目体系。
例如,根据电商平台产品词分布,从多个第二候选产品词中选取覆盖商品数量从高到底排序占比前98%的产品词,和在搜索行为下出现频次前98%的产品词的并集(在搜索行为下出现频次可以理解为:用户输入搜索式是“xx手机”,识别出的产品词是手机,那么手机对应的频次就加1),将该并集集合中的每一个产品词(即第二候选产品词)作为第一目标产品词。这样一方面考虑了对电商平台售卖商品的覆盖情况,另一方面也考虑了用户关注商品的覆盖率。若电商平台已经存在原类目体系,可将“覆盖商品数量从高到底排序占比前98%的产品词”此项细化为某粒度类目下覆盖商品数量从高到底排序占比前95%的产品词并集。“覆盖商品数量从高到底排序占比前98%的产品词”是基于平台全部的商品数来统计的,若电商平台侧重于家电或服饰等,那么家电或服饰类的商品占比就会更多,会有一些占比较少的商品难以覆盖,而在某粒度类目下统计覆盖商品的数量可以增加覆盖的全面性,例如在某粒度的每一个类目下选取占比前95%的产品词,比如生鲜选取95%,服饰选取95%、美妆选取95%等等。
在上述实施例的基础上,如图4所示,上述步骤S302“基于同义词判别模型,从多个相似产品词对中筛选出多个同义产品词对”可包括以下步骤:
S401,获取相似产品词对中的两个产品词分别在预设场景下出现的第一频次,以及相似产品词对在预设场景下同时出现的第二频次。
在本申请实施例中,预设场景包括以下至少一种:商品标题库、搜索点击行为和推荐点击行为。
若预设场景为商品标题库,则基于电商平台全部商品标题获取第一频次和第二频次:获取相似产品词对中的两个产品词分别在电商平台全部商品标题中出现的频次,作为第一频次;基于电商平台全部商品标题,获取相似产品词对同时出现在一个商品标题中的频次,作为第二频次。
若预设场景为搜索点击行为,则基于搜索日志,获取相似产品词对在用户的每一次搜索行为对应的商品点击列表中同时出现的频次,作为第二频次,以及相似产品词中任一产品词在商品点击列表中出现的频次,作为第一频次。
若预设场景为推荐点击行为,推荐点击行为对应的商品点击序列可以理解为,基于平台的推荐(如主页商品推荐)而点击的商品序列,可以包括用户点击的主页商品,和在主页商品触发的下拉页中点击的商品。获取相似产品词对在推荐点击行为对应的商品点击序列中同时出现的频次,作为第二频次,和相似产品词对中的两个产品词分别出现的频次,作为第一频次。
需要说明的是,第一频次为一个产品词在预设场景中出现的频次,只考虑该产品词是否出现,即第一频次包括该产品词单独出现的次数和与相似产品词对中另一产品词同时出现的次数。
S402,根据第一频次和第二频次,计算相似产品词对在预设场景下的关联度分数。
根据相似产品词对中的两个产品词在预设场景下分别出现的第一频次和同时出现的第二频次,计算相似产品词对的关联度分数,关联度计算公式如下:
Figure BDA0003748430800000091
其中,F(产品词a,产品词b)为产品词a和产品词b在预设场景下同时出现的频次(即第二频次),F(产品词b)为产品词b在该场景下出现的总频次(即产品词b对应的第一频次),F(产品词a)为产品词a在该场景下出现的总频次(即产品词a对应的第一频次),其中产品词a和产品词b为任一相似产品词对中的两个产品词。
关联度分值越大,说明产品词a和产品词b在该场景下关联度越高,越相似。
S403,将关联度分数和相似产品词对中的两个产品词分别对应的第一表征向量输入同义词判别模型,以判别出相似产品词对是否为同义产品词对。
在本申请实施例中,将每个相似产品词对的关联度分数和相似产品词对中两个产品词分别对应的第一表征向量,作为同义词判别模型的输入,通过模型确定出同义产品词对,其中相似产品词对中的两个产品词分别对应的第一表征向量与上述第一候选产品词的第一表征向量相似,此处不再赘述。
此外,若在本申请构建新的商品类目体系之前存在原类目体系,则在模型的输入中,还可以增加产品词在原类目体系中的数量分布特征。
如图5所示,本公开基于Wide&Deep模型作为同义词判别模型,模型包括Deep侧和Wide侧,在模型Deep侧,将产品词a和产品词b对应的第一表征向量,以及产品词a和产品词b在原类目体系中的数量分布特征作为输入,利用一层全连接层分别对产品词a和产品词b在原类目体系中的数量分布特征进行降维和特征提取;在模型Wide侧,将相似产品词对在预设场景下的关联度作为输入,如商品标题库、搜索点击行为及推荐点击行为下相似产品词对关联度等等统计特征。其中,原类目体系中的数量分布可以理解为:产品词在某个粒度的类目下的分布情况,例如在第三级类目里面可能包括三千个三级类目,基于产品词在这三千个三级类目中分别存在的数量,形成分布向量,每个三级类目对应一个维度,这样就构成了一个三千维的向量,然后通过全连接层进行降维。
在上述实施例的基础上,如图6所示,上述步骤S102中“基于第一目标产品词之间的上下位关系构建商品类目体系”可包括以下步骤:
S601,将存在上下位关系的任意两个第一目标产品词确定为第一上下位产品词对。
在本申请实施例中,针对任意两个第一目标产品词,确定这两个第一目标产品词之间是否存在上下位关系,将存在上下位关系的两个第一目标产品词确定为第一上下位产品词对,例如“粽子”与“肉粽”。
在一些实施例中,可以通过向量召回和规则召回两种方式,召回可能存在上下位关系的产品词对。其中,向量召回方式与上述相似度分数的计算过程类似,两两计算产品词间的第一表征向量的余弦值,对余弦值大于阈值的产品词对进行召回,即确定为第一上下位产品词对。规则召回方式,主要是基于pattern的方式(pattern为正则表达式经编译后的表现模式,在本申请中可以理解为规则如:“xx裤”是“裤子”)进行召回,根据中文的文字结构,召回可能存在上下位关系的产品词对。例如中文的文字结构可以为人工整理的“xx桌”是“桌子”的下位词等一系列pattern,也可以设定“xx,包含aa,bb”表示xx是aa,bb的上位词等一系列pattern,再基于百度百科或维基百科进行模糊匹配获取具体上下位产品词对,作为第一上下位产品词对。
S602,对多个第一上下位产品词对进行相关性过滤,以确定第二上下位产品词对。
在本申请实施例中,可以基于搜索日志、推荐日志以及原类目体系中的至少一种进行相关性过滤,即通过判断搜索行为相关性、推荐行为相关性、以及原类目体系相关性中的至少一种对第一上下位产品词对进行筛选过滤:
基于搜索日志,将第三频次大于第二阈值的第一上下位产品词对确定为第二上下位产品词对,第三频次为第一上下位产品词对中的两个产品词分别对应的搜索式存在交集的频次。
例如,基于搜索日志检查产品词对应的用户输入的所有搜索式存在交集的频次是否大于预设阈值(即第三阈值)。
基于推荐日志,将第四频次大于第三阈值的第一上下位产品词对确定为第二上下位产品词对,第四频次为第一上下位产品词对在推荐商品触发的商品点击序列中同时出现的频次。其中推荐商品可以为主页商品。
其中第三阈值和第四阈值可根据需要设定,本申请不做限定。
响应于在构建本申请商品类目体系之前存在原类目体系,将第一商品集合和第二商品集合存在交集的第一上下位产品词对确定为第二上下位产品词对,其中第一商品集合为第一上下位产品词对中的任一产品词在原类目体系中覆盖的商品的集合,第二商品集合为第一上下位产品词对中的除了任一产品词之外的产品词在原类目体系中覆盖的商品的集合。
S603,针对每个第二上下位产品词对,基于关系抽取模型,确定第二上下位产品词对中的上位产品词和下位产品词。
在本申请实施例中,基于关系抽取模型对得到的每一个第二上下位产品词对进行上下位关系确认,以及上位产品词和下位产品词的区分。其中关系抽取模型包括但不限于知识图谱嵌入的转换模型:TransR和TransD,以及BERT等模型。
以TransR模型作为关系抽取模型为例,如图7所示,将上下位关系表示为<h,r,t>三元组,其中图中的三角形和圆形均表示第二上下位产品词对中的产品词,圆形h为产品词A,圆形t为产品词B,r为产品词A和产品词B关系,产品词A和产品词B为一个第二上下位产品词对中的两个产品词,Mr为h是否为t上位词的投影矩阵,hr和tr分别为h和t经过投影矩阵映射后在上位关系空间的表征,其中,投影矩阵可以通过主动学习的模型训练得到。
其中,可以基于产品词在实体空间对应的第二表征向量和投影矩阵将产品词投影至上位关系空间,使得不同产品词之间能够分散开以便更好地确定产品词间的上下位关系,其中产品词对应的第二表征向量可以由上述第一表征向量(语义表征向量和行为表征向量的拼接向量)、产品词在原类目体系中的数量分布向量和该产品词与第二上下位关系产品词对中的另一个产品词在原类目体系中同时出现的频次分布向量构成,其中将数量分布向量和频次分布向量通过全来连接层将维度输出至与第一表征向量一致,通过对三个向量拼接得到该产品词对应的第二表征向量。
S604,判断第二上下位产品词对中的上位产品词是否为跨层上位产品词,若是,则将第二上下位产品词对舍弃,其中跨层上位产品词为多个下位产品词的上位产品词,且多个下位产品词之间存在上下位关系,若否,则将第二上下位产品词对确定为第三上下位产品词对。
由于一个产品词可能有多个上位产品词,为保证类目体系的树形结构,需要选取产品词最合适的上位产品词。在本申请实施例中,去除既是产品词A的上位词,也是产品词A某一上位词的上位词的跨层上位产品词,保证层级分明。例如,C为A的上位词,B为A的上位词,且C为B的上位词,则在C和A组成的第二上下位产品词对中C为跨层上位词。
S605,计算第三上下位产品词对的相关性得分。
在本申请实施例中,可以根据第三上下位产品词对在商品标题库中同时出现的频次、在商品标题库场景下的关联度分数、在搜索点击行为场景下的关联度分数及在推荐点击行为场景下的关联度分数中的至少一个,计算相关性得分。
例如,若将第三上下位产品词对在商品标题库中同时出现的频次、在商品标题库场景下的关联度分数、在搜索点击行为场景下的关联度分数及在推荐点击行为场景下的关联度分数这四个指标进行多指标融合,以此获取第三上下位产品词对综合的相关性得分,其中多指标融合方法包括但不限于加权融合、层次分析法和熵值法等等。
S606,从包含同一个下位产品词的第三上下位产品词对中,选取相关性得分最高的第三上下位产品词对,确定为目标上下位产品词对。
在本申请实施例中,同一个下位产品词可能存在于多个第三上下位产品词对中,与不同的上位产品词对应。针对每一个下位产品词,从包含该下位产品词的多个第三上下位产品词对中,选取相关性得分最高的第三上下位产品词对,将该第三上下位产品词对确定为目标上下位产品词对,即目标产品词对中的上位产品词为下位产品词对应的唯一上位词。
S607,基于目标上下位产品词对构建商品类目体系。
在本申请实施例中,基于得到的多个目标上下位产品词对,进行商品类目的层级构建,以形成商品类目体系。
图8为本申请一实施例提供的商品类目信息的确定方法商品类目体系的部分示意图,如图8所示,健身器材作为一个类目层级,健身器材的下位词:仰卧板、俯卧撑加和倒立椅作为一个类目层级,可以基于商品的产品词将商品挂靠到对应的类目下,如产品词为仰卧板的商品挂靠在健身器材<仰卧板类目下,与仰卧板的同义性较高的仰卧起坐板对应的商品也可挂靠在健身器材<仰卧板类目下。
在上述实施例的基础上,如图9所示,上述步骤S103中“根据商品类目体系确定待匹配商品的类目信息”可包括以下步骤:
S901,获取待匹配商品的第二目标产品词。
在本申请实施例中,待匹配商品可以为平台用户新上的待挂靠商品,或者等待获取类目信息的商品。根据待匹配商品对应的文本信息(如待匹配商品的商品标题等),获取待匹配商品的第二候选产品词和属性信息;基于第二候选产品词在属性信息下存在的条件概率,确定第二候选产品词的得分;将得分最高的第二候选产品词确定为第二目标产品词。
其中,可通过词性标注来获取第二候选产品词和属性信息,属性信息可以为商品的品牌、颜色、风格、功能和规格等信息。基于平台商品计算每个第二候选产品词在各种属性信息下的条件概率,然后对每一个第二候选产品词进行打分,将分数最高的第二候选产品词作为待匹配商品的唯一识别产品词(第二目标产品词)。进一步的可将这些条件概率存储为概率字典,以便调用。
其中,可通过下列公式,基于条件概率确定第二候选产品词的得分:
Figure BDA0003748430800000131
Figure BDA0003748430800000132
其中,pti为第i个第二候选产品词,属性k为基于词性标注识别出的第k种属性,P(pti)为第i个第二候选产品词在电商平台出现的概率,即第i个第二候选产品词覆盖的商品数除以平台商品总数,P(属性j|pti)为属性j和pti同时出现次数除以pti出现次数,基于朴素贝叶斯假设,各个属性之间为独立分布,此外因为对同一待匹配商品的不同第二候选产品词来说,其P(属性1,属性2,…,属性k)均相同,因此公式可进行简化,计算并比较分子即可。
作为一种可行的实施方式,还可以在条件概率的基础上增加图像信息,以确定第二候选产品词的得分。
获取第二候选产品词的图像表征向量和待匹配商品的图像表征向量;计算第二候选产品词的图像表征向量和待匹配商品的图像表征向量之间的余弦值;将余弦值与条件概率进行多指标融合,得到第二候选产品词的得分。
其中,每个产品词可以对应多个不同的商品,可以基于这些商品的图像获取产品词的图像表征向量。第二候选产品词的图像表征向量可以通过以下过程获取:获取第二候选产品词对应的多个商品图像;获取商品图像的表征向量;将多个表征向量的加权和作为第二候选产品词的图像表征向量。
S902,查找商品类目体系中与第二目标产品词的同义性得分大于第四阈值的产品词。
作为一种可行的实施方式,基于同义关系分类器或上述同义词判别模型从商品类目体系中查找与第二目标产品词的同义性得分大于第四阈值的产品词。
S903,将产品词对应的类目信息确定为待匹配商品的类目信息。
在一些实施例中,构建好的商品类目体系中可能存在于第二目标产品词相同的产品词,若存在,则可以将该产品词对应的类目信息作为待匹配商品的类目信息,或者将该待匹配商品直接挂靠在该产品词对应的类目下。
若不存在,可以通过计算第二目标产品词与商品类目体系中的产品词的同义性得分,若得分大于预设的第一阈值,则可以该产品词对应的类目信息作为待匹配商品的类目信息,或者将该待匹配商品间接挂靠在该产品词对应的类目下,若得分未达到预设的第四阈值,则将该第二目标产品词看作新词,可基于上述实施例对该词进行类目体系新分支构建,以确定该待匹配商品的类目信息。
在一些实施例中,如果类目体系是以周或月级别更新的话,无法直接或间接挂靠的新词的数量会为个或十位数,因此也可基于人工进行类目分支的增加。
本申请可按需求进行全量天级更新或者增量实时获取商品类目,商品类目挂靠可实现自动化及实时化,且可对新产品词实现较好挖掘及类目挂靠。
本申请为电商现有商品类目体系构建提供了一种低成本从零构建商品产品词类目体系,以及基于商品类目体系确定商品的类目信息的方法。商品产品词类目体系是基于商品本身定义出发,除部分一次性标注数据依赖人工外,其构建及运营均为自主。相比于现有更多基于业务经营范围确定的类目体系,更客观更通用,对搜索、推荐及广告等场景应用适用性更高。在类目体系构建过程中沉淀的产品词、同义词和上下位关系数据也是一份重要的数据资产,可提供给相应需求方。
图10为本申请一实施例提供的商品类目信息的确定方法的整体示意图。如图10所示,本申请实施例的商品类目信息的确定方法具体可包括以下步骤:
S1001,基于预设词性标签对样本商品对应的文本信息进行词性标注。
S1002,从词性标注后的文本信息中筛选出多个第一候选产品词。
S1003,获取第一候选产品词的语义表征向量和行为表征向量。
S1004,将语义表征向量与行为表征向量进行拼接,生成第一表征向量。
S1005,基于第一表征向量,确定任意两个第一候选产品词之间的相似度分数,将相似度分数大于第一阈值的任意两个第一候选产品词,确定为相似产品词对。
S1006,基于同义词判别模型,从多个相似产品词对中筛选出多个同义产品词对。
S1007,将每个同义产品词对归一为一个第二候选产品词。
S1008,根据所述第二候选产品词的商品覆盖量和第二候选产品词在搜索行为下出现的频次,从多个第二候选产品词中选取多个第一目标产品词。
S1009,将存在上下位关系的任意两个第一目标产品词确定为第一上下位产品词对。
S1010,对多个第一上下位产品词对进行相关性过滤,以确定第二上下位产品词对。
S1011,针对每个第二上下位产品词对,基于关系抽取模型,确定第二上下位产品词对中的上位产品词和下位产品词。
S1012,判断第二上下位产品词对中的上位产品词是否为跨层上位产品词,若是,则将第二上下位产品词对舍弃,其中跨层上位产品词为多个下位产品词的上位产品词,且多个下位产品词之间存在上下位关系,若否,则将第二上下位产品词对确定为第三上下位产品词对。
S1013,根据第三上下位产品词对在商品标题库中同时出现的频次、在商品标题库场景下的关联度分数、在搜索点击行为场景下的关联度分数及在推荐点击行为场景下的关联度分数中的至少一个,计算相关性得分。
S1014,从包含同一个下位产品词的第三上下位产品词对中,选取相关性得分最高的第三上下位产品词对,确定为目标上下位产品词对。
S1015,基于目标上下位产品词对构建商品类目体系。
S1016,获取待匹配商品的第二目标产品词。
S1017,查找商品类目体系中与第二目标产品词的同义性得分大于第四阈值的产品词。
S1018,将产品词对应的类目信息确定为待匹配商品的类目信息。
图11为本申请提出的一种商品类目信息的确定装置的框图,如图11所示,该商品类目信息的确定装置1100,包括:获取模块1101、构建模块1102和确定模块1103,其中:
获取模块1101,用于获取样本商品对应的多个第一目标产品词。
构建模块1102,用于基于第一目标产品词之间的上下位关系构建商品类目体系。
确定模块1103,用于根据商品类目体系确定待匹配商品的类目信息。
根据本申请的一个实施方式,获取模块1011,进一步可用于:基于预设词性标签对样本商品对应的文本信息进行词性标注;从词性标注后的文本信息中筛选出多个第一候选产品词;对多个第一候选产品词进行同义合并,得到多个第一目标产品词。
根据本申请的一个实施方式,获取模块1011,进一步可用于:根据第一候选产品词之间的相似度分数,确定多个相似产品词对;基于同义词判别模型,从多个相似产品词对中筛选出多个同义产品词对;将每个同义产品词对归一为一个第二候选产品词;根据第二候选产品词的商品覆盖量和第二候选产品词在搜索行为下出现的频次,从多个第二候选产品词中选取多个第一目标产品词。
根据本申请的一个实施方式,获取模块1011,进一步用于:获取第一候选产品词的第一表征向量;基于第一表征向量,确定任意两个第一候选产品词之间的相似度分数;将相似度分数大于第一阈值的任意两个第一候选产品词,确定为相似产品词对。
根据本申请的一个实施方式,获取模块1011,进一步可用于:获取第一候选产品词的语义表征向量;获取第一候选产品词的行为表征向量;将语义表征向量与行为表征向量进行拼接,生成第一表征向量。
根据本申请的一个实施方式,获取模块1011,进一步用于:获取在第一候选产品词对应的搜索行为下,用户点击商品的商品标题;对商品标题进行关键词提取,得到关键词表征分词;获取关键词表征分词的语义表征向量;将关键词表征分词的语义表征向量的加权和作为第一候选产品词的行为表征向量。
根据本申请的一个实施方式,获取模块1011,进一步可用于:获取相似产品词对中的两个产品词分别在预设场景下出现的第一频次,以及相似产品词对在预设场景下同时出现的第二频次;根据第一频次和第二频次,计算相似产品词对的关联度分数;将关联度分数和两个相似产品词对中的两个产品词分别对应的第一表征向量输入同义词判别模型,以判别出相似产品词对是否为同义产品词对。
根据本申请的一个实施方式,预设场景包括以下至少一种:商品标题库、搜索点击行为和推荐点击行为。
根据本申请的一个实施方式,构建模块1102,进一步可用于:将存在上下位关系的任意两个第一目标产品词确定为第一上下位产品词对;对多个第一上下位产品词对进行相关性过滤,以确定第二上下位产品词对;针对每个第二上下位产品词对,基于关系抽取模型,确定第二上下位产品词对中的上位产品词和下位产品词;判断第二上下位产品词对中的上位产品词是否为跨层上位产品词,若是,则将第二上下位产品词对舍弃,其中跨层上位产品词为多个下位产品词的上位产品词,且多个下位产品词之间存在上下位关系,若否,则将第二上下位产品词对确定为第三上下位产品词对;计算第三上下位产品词对的相关性得分;从包含同一个下位产品词的第三上下位产品词对中,选取相关性得分最高的第三上下位产品词对,确定为目标上下位产品词对;基于目标上下位产品词对构建商品类目体系。
根据本申请的一个实施方式,构建模块1102,进一步可用于:基于搜索日志,将第三频次大于第儿阈值的第一上下位产品词对确定为第二上下位产品词对,第三频次为第一上下位产品词对中的两个产品词分别对应的搜索式存在交集的频次;基于推荐日志,将第四频次大于第三阈值的第一上下位产品词对确定为第二上下位产品词对,第四频次为第一上下位产品词对在推荐商品触发的商品点击序列中同时出现的频次;以及响应于在构建商品类目体系之前存在原类目体系,将第一商品集合和第二商品集合存在交集的第一上下位产品词对确定为第二上下位产品词对,第一商品集合为第一上下位产品词对中的任一产品词在原类目体系中覆盖的商品的集合,第二商品集合为第一上下位产品词对中的除了任一产品词之外的产品词在原类目体系中覆盖的商品的集合。
根据本申请的一个实施方式,构建模块1102,进一步用于:根据第三上下位产品词对在商品标题库中同时出现的频次、在商品标题库场景下的关联度分数、在搜索点击行为场景下的关联度分数及在推荐点击行为场景下的关联度分数中的至少一个,计算相关性得分。
根据本申请的一个实施方式,确定模块1103,进一步用于:获取待匹配商品的第二目标产品词;查找商品类目体系中与第二目标产品词的同义性得分大于第四阈值的产品词;将产品词对应的类目信息确定为待匹配商品的类目信息。
根据本申请的一个实施方式,确定模块1103,进一步可用于:根据待匹配商品对应的文本信息,获取待匹配商品的第二候选产品词和属性信息;基于第二候选产品词在属性信息下存在的条件概率,确定第二候选产品词的得分;将得分最高的第二候选产品词确定为第二目标产品词。
根据本申请的一个实施方式,确定模块1103,进一步可用于:获取第二候选产品词的图像表征向量和待匹配商品的图像表征向量;计算第二候选产品词的图像表征向量和待匹配商品的图像表征向量之间的余弦值;将余弦值与条件概率进行多指标融合,得到第二候选产品词的得分。
需要说明的是,上述对商品类目信息的确定方法实施例的解释说明,也适用于本实施例的商品类目信息的确定装置,具体过程此处不再赘述。
本申请实施例提出了一种商品类目信息的确定装置,获取样本商品对应的多个第一目标产品词,基于第一目标产品词之间的上下位关系构建商品类目体系,根据商品类目体系确定待匹配商品的类目信息。商品的产品词用于定义该商品,能够体现商品的类别和本质属性,该方法基于商品的产品词进行商品类目体系构建,构建好的商品类目体系中包含全部样本商品的类目信息,这些类目基于商品本身的定义划分,能够更好地适用于搜索和推荐等其他新电商场景,待匹配商品可以基于商品类目体系,与样本商品的类目信息进行匹配,从而确定该待匹配商品的类目信息,降低商品类目信息确定和更新的成本。
为了实现上述实施例,本申请实施例还提出一种电子设备1200,如图12所示,该电子设备1200包括:处理器1201和处理器通信连接的存储器1202,存储器1202存储有可被至少一个处理器执行的指令,指令被至少一个处理器1201执行,以实现如上述实施例所示的商品类目信息的确定方法。
为了实现上述实施例,本申请实施例还提出一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机实现如上述实施例所示的商品类目信息的确定方法。
为了实现上述实施例,本申请实施例还提出一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如上述实施例所示的商品类目信息的确定方法。
在本申请的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (20)

1.一种商品类目信息的确定方法,其特征在于,包括:
获取样本商品对应的多个第一目标产品词;
基于所述第一目标产品词之间的上下位关系构建商品类目体系;
根据所述商品类目体系确定待匹配商品的类目信息。
2.根据权利要求1所述的确定方法,其特征在于,所述获取样本商品对应的多个第一目标产品词,包括:
基于预设词性标签对所述样本商品对应的文本信息进行词性标注;
从词性标注后的文本信息中筛选出多个第一候选产品词;
对多个所述第一候选产品词进行同义合并,得到多个所述第一目标产品词。
3.根据权利要求2所述的确定方法,其特征在于,所述对多个所述第一候选产品词进行同义合并,得到多个所述第一目标产品词,包括:
根据所述第一候选产品词之间的相似度分数,确定多个相似产品词对;
基于同义词判别模型,从多个所述相似产品词对中筛选出多个同义产品词对;
将每个所述同义产品词对归一为一个第二候选产品词;
根据所述第二候选产品词的商品覆盖量和所述第二候选产品词在搜索行为下出现的频次,从多个所述第二候选产品词中选取多个所述第一目标产品词。
4.根据权利要求3所述的确定方法,其特征在于,所述根据所述第一候选产品词之间的相似度分数,确定多个相似产品词对,包括:
获取所述第一候选产品词的第一表征向量;
基于所述第一表征向量,确定任意两个所述第一候选产品词之间的所述相似度分数;
将所述相似度分数大于第一阈值的任意两个所述第一候选产品词,确定为所述相似产品词对。
5.根据权利要求4所述的确定方法,其特征在于,所述获取所述第一候选产品词的第一表征向量,包括:
获取所述第一候选产品词的语义表征向量;
获取所述第一候选产品词的行为表征向量;
将所述语义表征向量与所述行为表征向量进行拼接,生成所述第一表征向量。
6.根据权利要求5所述的确定方法,其特征在于,所述获取所述第一候选产品词的行为表征向量,包括:
获取在所述第一候选产品词对应的搜索行为下,用户点击商品的商品标题;
对所述商品标题进行关键词提取,得到关键词表征分词;
获取所述关键词表征分词的语义表征向量;
将所述关键词表征分词的语义表征向量的加权和作为所述第一候选产品词的行为表征向量。
7.根据权利要求3所述的确定方法,其特征在于,所述基于同义词判别模型,从多个所述相似产品词对中筛选出多个同义产品词对,包括:
获取所述相似产品词对中的两个产品词分别在预设场景下出现的第一频次,以及所述相似产品词对在所述预设场景下同时出现的第二频次;
根据所述第一频次和所述第二频次,计算所述相似产品词对在所述预设场景下的关联度分数;
将所述关联度分数和所述相似产品词对中的两个产品词分别对应的第一表征向量输入所述同义词判别模型,以判别出所述相似产品词对是否为所述同义产品词对。
8.根据权利要求7所述的确定方法,其特征在于,所述预设场景包括以下至少一种:商品标题库、搜索点击行为和推荐点击行为。
9.根据权利要求1所述的确定方法,其特征在于,所述基于所述第一目标产品词之间的上下位关系构建商品类目体系,包括:
将存在上下位关系的任意两个所述第一目标产品词确定为第一上下位产品词对;
对多个所述第一上下位产品词对进行相关性过滤,以确定第二上下位产品词对;
针对每个所述第二上下位产品词对,基于关系抽取模型,确定所述第二上下位产品词对中的上位产品词和下位产品词;
判断所述第二上下位产品词对中的上位产品词是否为跨层上位产品词,若是,则将所述第二上下位产品词对舍弃,其中所述跨层上位产品词为多个所述下位产品词的上位产品词,且多个所述下位产品词之间存在上下位关系,若否,则将所述第二上下位产品词对确定为第三上下位产品词对;
计算所述第三上下位产品词对的相关性得分;
从包含同一个下位产品词的所述第三上下位产品词对中,选取所述相关性得分最高的所述第三上下位产品词对,确定为目标上下位产品词对;
基于所述目标上下位产品词对构建所述商品类目体系。
10.根据权利要求9所述的确定方法,其特征在于,所述对多个所述第一上下位产品词对进行相关性过滤,以确定第二上下位产品词对,包括以下至少一种:
基于搜索日志,将第三频次大于第二阈值的所述第一上下位产品词对确定为所述第二上下位产品词对,所述第三频次为所述第一上下位产品词对中的两个产品词分别对应的搜索式存在交集的频次;
基于推荐日志,将第四频次大于第三阈值的所述第一上下位产品词对确定为所述第二上下位产品词对,所述第四频次为所述第一上下位产品词对在推荐商品触发的商品点击序列中同时出现的频次;以及
响应于在构建所述商品类目体系之前存在原类目体系,将第一商品集合和第二商品集合存在交集的所述第一上下位产品词对确定为所述第二上下位产品词对,所述第一商品集合为所述第一上下位产品词对中的任一产品词在所述原类目体系中覆盖的商品的集合,所述第二商品集合为所述第一上下位产品词对中的除了所述任一产品词之外的产品词在所述原类目体系中覆盖的商品的集合。
11.根据权利要求9所述的确定方法,其特征在于,所述计算所述第三上下位产品词对的相关性得分,包括:
根据所述第三上下位产品词对在商品标题库中同时出现的频次、在商品标题库场景下的关联度分数、在搜索点击行为场景下的关联度分数及在推荐点击行为场景下的关联度分数中的至少一个,计算所述相关性得分。
12.根据权利要求1所述的确定方法,其特征在于,所述根据所述商品类目体系确定待匹配商品的类目信息,包括:
获取所述待匹配商品的第二目标产品词;
查找所述商品类目体系中与所述第二目标产品词的同义性得分大于第四阈值的产品词;
将所述产品词对应的类目信息确定为所述待匹配商品的类目信息。
13.根据权利要求12所述的确定方法,其特征在于,所述获取所述待匹配商品的第二目标产品词,包括:
根据所述待匹配商品对应的文本信息,获取所述待匹配商品的第二候选产品词和属性信息;
基于所述第二候选产品词在所述属性信息下存在的条件概率,确定所述第二候选产品词的得分;
将所述得分最高的所述第二候选产品词确定为所述第二目标产品词。
14.根据权利要求13所述的确定方法,其特征在于,所述基于所述第二候选产品词在所述属性信息下存在的条件概率,确定所述第二候选产品词的得分,包括:
获取所述第二候选产品词的图像表征向量和所述待匹配商品的图像表征向量;
计算所述第二候选产品词的图像表征向量和所述待匹配商品的图像表征向量之间的余弦值;
将所述余弦值与所述条件概率进行多指标融合,得到所述第二候选产品词的得分。
15.根据权利要求14所述的确定方法,其特征在于,所述获取所述第二候选产品词的图像表征向量,包括:
获取所述第二候选产品词对应的多个商品图像;
获取所述商品图像的表征向量;
将多个所述表征向量的加权和作为所述第二候选产品词的图像表征向量。
16.一种商品类目信息的装置,其特征在于,包括:
获取模块,用于获取样本商品对应的多个第一目标产品词;
构建模块,用于基于所述第一目标产品词之间的上下位关系构建商品类目体系;
确定模块,用于根据所述商品类目体系确定待匹配商品的类目信息。
17.根据权利要求16所述的装置,其特征在于,所述确定模块,进一步用于:
获取所述待匹配商品的第二目标产品词;
查找所述商品类目体系中与所述第二目标产品词的同义性得分大于第四阈值的产品词;
将所述产品词对应的类目信息确定为所述待匹配商品的类目信息。
18.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-15中任一项所述的方法。
19.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-15中任一项所述的方法。
20.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-15中任一项所述的方法。
CN202210831158.8A 2022-07-15 2022-07-15 商品类目信息的确定方法及其装置 Pending CN115114994A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210831158.8A CN115114994A (zh) 2022-07-15 2022-07-15 商品类目信息的确定方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210831158.8A CN115114994A (zh) 2022-07-15 2022-07-15 商品类目信息的确定方法及其装置

Publications (1)

Publication Number Publication Date
CN115114994A true CN115114994A (zh) 2022-09-27

Family

ID=83332329

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210831158.8A Pending CN115114994A (zh) 2022-07-15 2022-07-15 商品类目信息的确定方法及其装置

Country Status (1)

Country Link
CN (1) CN115114994A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116049741A (zh) * 2023-04-03 2023-05-02 欧瑞科斯科技产业(集团)有限公司 商品分类编码的快速识别方法、装置、电子设备及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116049741A (zh) * 2023-04-03 2023-05-02 欧瑞科斯科技产业(集团)有限公司 商品分类编码的快速识别方法、装置、电子设备及介质

Similar Documents

Publication Publication Date Title
US11334635B2 (en) Domain specific natural language understanding of customer intent in self-help
CN111898031B (zh) 一种获得用户画像的方法及装置
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
EP3717984B1 (en) Method and apparatus for providing personalized self-help experience
CN110633407B (zh) 信息检索方法、装置、设备及计算机可读介质
CN106663117A (zh) 构造支持提供探索性建议的图
Huang et al. Expert as a service: Software expert recommendation via knowledge domain embeddings in stack overflow
Qian et al. Detecting new Chinese words from massive domain texts with word embedding
Mehrbod et al. Tender calls search using a procurement product named entity recogniser
Wang et al. Data-driven approach for bridging the cognitive gap in image retrieval
CN114266443A (zh) 数据评估方法和装置、电子设备、存储介质
Rodríguez-García et al. BlindDate recommender: A context-aware ontology-based dating recommendation platform
CN114792246A (zh) 一种基于主题集成聚类的产品典型性特质挖掘方法及系统
Wei et al. Online education recommendation model based on user behavior data analysis
CN115114994A (zh) 商品类目信息的确定方法及其装置
Tommasi et al. Combining multiple cues for visual madlibs question answering
CN113821612A (zh) 信息查找方法以及装置
CN111460808B (zh) 同义文本识别及内容推荐方法、装置及电子设备
Meng et al. A personalized and approximated spatial keyword query approach
Chekalina et al. Retrieving Comparative Arguments using Deep Pre-trained Language Models and NLU.
Zhang et al. Personalized Recommendation Method of Online Education Resources for Tourism Majors Based on Machine Learning
Mansur et al. Text Analytics and Machine Learning (TML) CS5604 Fall 2019
Valtonen Unsupervised Machine Learning for Event Categorization in Business Intelligence
Li et al. Recommender Systems: Frontiers and Practices
Lee Adaptive text extraction for new product development

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination