CN112801720A - 一种店铺类目识别模型生成、店铺类目识别的方法及装置 - Google Patents

一种店铺类目识别模型生成、店铺类目识别的方法及装置 Download PDF

Info

Publication number
CN112801720A
CN112801720A CN202110387823.4A CN202110387823A CN112801720A CN 112801720 A CN112801720 A CN 112801720A CN 202110387823 A CN202110387823 A CN 202110387823A CN 112801720 A CN112801720 A CN 112801720A
Authority
CN
China
Prior art keywords
category
identification
information
shop
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110387823.4A
Other languages
English (en)
Other versions
CN112801720B (zh
Inventor
陈鑫亚
侯兴翠
王化楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lianlian Hangzhou Information Technology Co ltd
Original Assignee
Lianlian Hangzhou Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lianlian Hangzhou Information Technology Co ltd filed Critical Lianlian Hangzhou Information Technology Co ltd
Priority to CN202110387823.4A priority Critical patent/CN112801720B/zh
Publication of CN112801720A publication Critical patent/CN112801720A/zh
Application granted granted Critical
Publication of CN112801720B publication Critical patent/CN112801720B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0203Market surveys; Market polls
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种店铺类目识别模型生成、店铺类目识别的方法及装置,其中,所述店铺类目识别模型生成方法包括:获取样本店铺的样本商品信息和样本商品信息对应的多级业务类目;确定店铺类目识别的多个识别维度、每个识别维度对应的至少一个分支节点和每个识别维度对应的类目识别约束信息;基于样本商品信息和样本商品信息对应的多级业务类目,生成样本店铺在每个识别维度下的目标识别信息;基于每个识别维度的影响因子和对应的至少一个分支节点,构建店铺类目识别对应的预设树结构;基于目标识别信息和类目识别约束信息对预设树结构进行店铺类目识别训练,得到店铺类目识别模型。本申请能够提高店铺类目识别的准确度,减少人工操作失误风险。

Description

一种店铺类目识别模型生成、店铺类目识别的方法及装置
技术领域
本申请涉及数据处理领域,具体涉及一种店铺类目识别模型生成、店铺类目识别的方法及装置。
背景技术
传统的店铺类目识别方法通过人工手段对店铺类目进行标注,依赖于业务人员手动点击店铺链接,根据店铺下的商品数量和商品类目主观对店铺类目进行定义。
对于传统的人工标注店铺类目方法而言,由于店铺下大量的在售商品数据和复杂繁多的商品层级分类体系,手动点击店铺链接不仅需要投入大量人力,导致低效率的类目标注,而且由于人工的主观性,易产生错误的标注结果。基于人工标注店铺类目方法表现出的低效率和高风险,需要提供更加高效科学的技术方案。
发明内容
本申请提供了一种店铺类目识别模型生成、店铺类目识别的方法及装置,可以实现快速地店铺类目识别,提高店铺类目识别的效率和准确度,进而减少人工参与及操作失误风险,本申请技术方案如下:
一方面,提供了一种店铺类目识别模型的生成方法,所述方法包括:
获取样本店铺的样本商品信息和所述样本商品信息对应的多级业务类目;
确定店铺类目识别的多个识别维度、每个识别维度对应的至少一个分支节点和所述每个识别维度对应的类目识别约束信息;
基于所述样本商品信息和所述样本商品信息对应的多级业务类目,生成所述样本店铺在所述每个识别维度下的目标识别信息;
基于所述每个识别维度的影响因子和对应的至少一个分支节点,构建店铺类目识别对应的预设树结构,所述影响因子表征所述每个识别维度在店铺类目识别中的权重;
基于所述目标识别信息和所述类目识别约束信息对所述预设树结构进行店铺类目识别训练,得到所述店铺类目识别模型。
另一方面,提供了一种店铺类目识别方法,所述方法包括:
获取待识别店铺的商品信息;
将所述商品信息输入商品类目预测模型进行商品类目预测,得到所述商品信息对应的多级标准类目;
基于店铺类目识别模型对所述商品信息对应的多级标准类目进行店铺类目识别,得到所述待识别店铺的类目信息;
其中,所述店铺类目识别模型根据上述店铺类目识别模型的生成方法生成后得到。
另一方面,提供了一种店铺类目识别模型的生成装置,所述装置包括:
样本商品信息获取模块,用于获取样本店铺的样本商品信息和所述样本商品信息对应的多级业务类目;
识别维度确定模块,用于确定店铺类目识别的多个识别维度、每个识别维度对应的至少一个分支节点和所述每个识别维度对应的类目识别约束信息;
目标识别信息生成模块,用于基于所述样本商品信息和所述样本商品信息对应的多级业务类目,生成所述样本店铺在所述每个识别维度下的目标识别信息;
树结构构建模块,用于基于所述每个识别维度的影响因子和对应的至少一个分支节点,构建店铺类目识别对应的预设树结构,所述影响因子表征所述每个识别维度在店铺类目识别中的权重;
店铺类目识别训练模块,用于基于所述目标识别信息和所述类目识别约束信息对所述预设树结构进行店铺类目识别训练,得到所述店铺类目识别模型
另一方面,提供了一种店铺类目识别装置,所述装置包括:
商品信息获取模块,用于获取待识别店铺的商品信息;
商品类目预测模块,用于将所述商品信息输入商品类目预测模型进行商品类目预测,得到所述商品信息对应的多级标准类目;
店铺类目识别模块,用于基于店铺类目识别模型对所述商品信息对应的多级标准类目进行店铺类目识别,得到所述待识别店铺的类目信息;
其中,所述店铺类目识别模型根据上述店铺类目识别模型的生成装置生成后得到。
另一方面,提供了一种店铺类目识别设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的店铺类目识别方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上述的店铺类目识别方法。
本申请提供的一种店铺类目识别模型生成、店铺类目识别的方法及装置,具有如下技术效果:
本申请能够得到具有高泛化能力的店铺类目识别模型,在利用商品类目预测模型和店铺类目识别模型得到待识别店铺的类目识别时,不仅能够高效地处理大数据量,快速识别店铺的类目信息,而且提高了店铺类目识别准确度,从而大大减少人工参与及降低相应的操作失误风险。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本申请实施例提供的一种店铺类目识别模型的生成方法的流程示意图;
图2是本申请实施例提供的一种样本店铺的目标识别信息生成方法的流程示意图;
图3是本申请实施例提供的一种预设树结构的构建方法的流程示意图;
图4是本申请实施例提供的一种预设树结构的示意图;
图5是本申请实施例提供的一种店铺类目识别训练方法的流程示意图;
图6是本申请实施例提供的一种目标分支路径的示意图;
图7是本申请实施例提供的一种店铺类目识别方法的流程示意图;
图8是本申请实施例提供的一种商品类目预测模型的训练方法的流程示意图;
图9是本申请实施例提供的一种类目映射字典的构建方法的流程示意图;
图10是本申请实施例提供的一种待识别店铺的类目信息的识别方法的流程示意图;
图11是本申请实施例提供的一种待识别店铺的确定方法的流程示意图;
图12是本申请实施例提供的一种店铺类目识别模型的生成示意图;
图13是本申请实施例提供的一种店铺类目识别装置示意图;
图14是本申请实施例提供的一种店铺类目识别方法的服务器的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
以下介绍本申请实施例提供的一种店铺类目识别模型的生成方法,图1为本申请实施例提供的一种店铺类目识别模型的生成方法的流程示意图。需要说明的是,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图1所示,上述方法可以包括:
S101,获取样本店铺的样本商品信息和上述样本商品信息对应的多级业务类目。
在本说明书实施例中,样本商品信息可以包括但不限于样本商品标题信息、样本商品价格信息、样本商品类目信息和样本商品数量信息;业务类目可以为电商平台根据自身的业务需求设置的类目信息。
在一个具体的实施例中,可以通过PySpark程序(分布式计算引擎)从电商平台的历史数据中获取各样本店铺的样本商品信息,并根据业务需求预先设置样本商品信息对应的多级业务类目,可选的实施例中,多级业务类目可以为三级业务类目。
S103,确定店铺类目识别的多个识别维度、每个识别维度对应的至少一个分支节点和上述每个识别维度对应的类目识别约束信息。
具体的,多个识别维度可以包括但不限于商品数量维度、商品品类风险维度、类目预测概率维度、众数商品类目维度。具体的,商品数量维度为店铺内在售商品的种类数量;商品品类风险维度为电商平台评估商品类目所属行业是否存在交易风险以及交易风险的严重程度;类目预测概率维度为商品对应的多级业务类目的预测准确率;众数商品类目维度为店铺内在售商品对应的多级业务类目中出现频数最多的业务类目。
具体的,分支节点为根据每个识别维度的识别区间设置的子区间,每个识别维度对应的至少一个分支节点共同构成每个识别维度的识别区间。具体的,商品数量信息的至少一个分支节点可以基于大量包含不同数量的样本商品的样本店铺进行店铺类目识别的结果归纳得到;商品品类风险信息的至少一个分支节点可以基于大量包含不同品类风险的样本商品的样本店铺进行店铺类目识别的结果归纳得到;类目预测概率信息的至少一个分支节点可以基于大量包含不同品类风险的样本商品的样本店铺进行店铺类目识别的结果归纳得到;众数商品类目信息的至少一个分支节点可以基于大量包含不同对应的多级业务类目的样本商品的样本店铺进行店铺类目识别的结果归纳得到。例如,商品数量维度的至少一个分支节点为可以分别为1,[2,3],[4,+∞);商品品类风险维度的至少一个分支节点可以分别为低风险,中风险和高风险;类目预测概率维度的至少一个分支节点可以分别为[0,80%)和[80%,100%];众数商品类目维度的至少一个分支节点可以分别为众数类目和非众数类目。
在实际应用中,还需要预设设置每个业务类目的品类风险值,例如,低风险值的业务类目可以包括但不限于:服饰,百货,饰品;中风险值的业务类目可以包括但不限于:电子产品、乐器、工艺品;高风险值的业务类目可以包括但不限于:奢侈品、工业器械、医疗器械。
具体的,类目识别约束信息可以为每个识别维度的类目识别约束条件,类目识别约束信息可以基于店铺类目的识别需求预先设置。
S105,基于上述样本商品信息和上述样本商品信息对应的多级业务类目,生成上述样本店铺在上述每个识别维度下的目标识别信息。
在一个可选的实施例中,上述样本商品信息包括一个样品商品的商品信息,根据该一个样本商品的商品信息和对应的多级业务类目,确定该一个样本商品在上述多个识别维度下的识别信息,并将每个识别维度下的识别信息作为目标识别信息。
在另一个可选的实施例中,如图2所示,上述样本商品信息包括多个样本商品的商品信息,上述基于上述样本商品信息和上述样本商品信息对应的多级业务类目,生成上述样本店铺在上述每个识别维度下的目标识别信息可以包括:
S201,根据每个样本商品的商品信息和对应的多级业务类目确定上述每个样本商品在上述多个识别维度下对应的识别信息。
具体的,将每个样本商品对应的多级业务类目中每级业务类目的品类风险作为商品品类风险维度下的识别信息,将每个样本商品对应的多级业务类目中每级业务类目的预测概率作为类目预测概率维度下的识别信息,将每个样本商品对应的多级业务类目中每级业务类目作为众数商品类目维度下的识别信息。
S203,针对每个识别维度,将上述多个样本商品对应的识别信息满足预设维度条件的样本商品的商品信息和对应的多级业务类目作为上述样本店铺在上述每个识别维度下的目标识别信息。
具体的,将上述多个样本商品的种类数量作为商品数量维度下的目标识别信息,将每级业务类目中品类风险最高的业务类目作为商品品类风险维度下的目标识别信息,将每级业务类目中预测概率最大的业务类目作为类目预测概率维度下的目标识别信息,将每级业务类目中出现频数最多业务类目作为众数商品类目维度下的目标识别信息。
S107,基于上述每个识别维度的影响因子和对应的至少一个分支节点,构建店铺类目识别对应的预设树结构,上述影响因子表征上述每个识别维度在店铺类目识别中的权重。
在一个具体的实施例中,如图3所示,上述基于上述每个识别维度的影响因子和对应的至少一个分支节点,构建店铺类目识别对应的预设树结构可以包括:
S301,基于上述影响因子,确定上述每个识别维度的层级信息。
具体的,识别维度对店铺类目识别的影响因子为识别维度在店铺类目识别过程中对识别结果的影响权重。
在一个可选的实施例中,将商品数量维度设置在预设树结构的第一层级,将类目预测概率维度设置在预设树结构的第二层级,将众数商品类目维度设置在预设树结构的第三层级,将商品品类风险维度设置在预设树结构的第四层级。
S303,根据上述层级信息和上述每个识别维度对应的至少一个分支节点,生成上述预设树结构。
在一个具体的实施例中,考虑到根据多个识别维度的层级顺序以及对应的至少一个分支节点生成不同店铺类目识别路径的所有可能性,构建预设树结构,如图4所示,图4提供了一种预设树结构的示意图。
S109,基于上述目标识别信息和上述类目识别约束信息对上述预设树结构进行店铺类目识别训练,得到上述店铺类目识别模型。
在本说明书实施例中,如图5所示,上述基于上述目标识别信息和上述类目识别约束信息对上述预设树结构进行店铺类目识别训练,得到上述店铺类目识别模型可以包括:
S501,根据上述目标识别信息,确定上述预设树结构中与上述目标识别信息匹配的目标分支节点,上述目标分支节点为识别维度区间中包含上述目标识别信息的分支节点。
S503,将上述预设树结构中包括上述目标分支节点的分支路径,作为目标分支路径。
S505,遍历上述目标分支路径中每一目标分支节点,在遍历到上述每一目标分支节点时,判断当前遍历到的目标分支节点对应识别维度的目标识别信息是否满足对应的类目识别约束信息。
具体的,商品数量维度的类目识别约束信息为样本店铺下的多个样本商品对应的多级类目相同;预测概率维度的类目约束信息为对应目标识别信息包含的多级类目中存在预测概率最大的类目;众数商品类目维度的类目约束信息为对应目标识别信息包含的多级类目中存在众数值最大的类目;商品品类风险维度的类目约束信息为对应目标识别信息包含的多级类目中存在风险值最高的类目。
S507,若满足,停止遍历,并从当前遍历到的分支节点对应识别维度下的目标识别信息包含的多级业务类目中确定上述样本店铺的类目信息。
以多级业务类目为三级业务类目为例,在一个具体的实施例中,一个样本店铺的样本商品信息如:
样本商品 一级业务类目 预测概率 二级业务类目 预测概率 三级业务类目 预测概率 库存数量
无线耳机 服饰 10% 电子产品 95% 电子配件 95% 1000
短袖 服饰 95% 服饰 95% 电子配件 5% 1500
运动外套 服饰 95% 服饰 95% 服饰 95% 1000
首先,确定该样本店铺的目标识别信息,具体的,在商品数量维度下的目标识别信息为3;在类目预测概率维度下的目标识别信息为第一级:服饰(预测概率:95%),第二级:电子产品、服饰(预测概率:95%) ,第三级:电子配件、服饰(预测概率:95%);在众数商品类目维度下的目标识别信息为第一级:服饰(众数值:3),第二级:服饰(众数值:2),第三级:电子配件(众数值:2);在商品品类风险维度下的目标识别信息为第一级:服饰(品类风险值:低风险),第二级:电子产品(品类风险值:中风险),第三级:电子配件(品类风险值:中风险)。
然后,确定上述预设树结构中与上述目标识别信息匹配的目标分支节点,具体的,商品数量维度的目标分支节点为[2,3],预测概率维度的目标分支节点为[80%,100%],众数商品类目维度的目标分支节点为众数类目,商品品类风险维度的目标分支节点为中风险。
接着,确定上述预设树结构中包括上述目标分支节点的目标分支路径,如图6所示,图6是上述样本店铺在预设树结构中的目标分支路径。
再,判断商品数量维度下的目标识别信息是否满足样本店铺下的多个样本商品对应的三级类目相同,判断结果为不满足;继续判断预测概率维度下的目标识别信息是否满足三级类目中存在预测概率最大的类目,由于三级类目的预测概率相同,不存在预测概率最大的类目,判断结果为不满足;继续判断众数商品类目维度下的目标识别信息是否满足三级类目中存在众数值最大的类目,由于存在众数值最大的类目“服饰”,判断结果为满足,则停止遍历。
最后,将众数商品类目维度下的目标识别信息包含的三级类目中的“服饰”作为样本店铺的类目信息。
S509,对上述类目信息进行验证分析,得到验证分析结果。
在一个可选的实施例中,将样本店铺的类目信息与样本店铺下样本商品信息进行匹配验证,验证样本店铺下的样本商品是否归属于样本店铺的当前类目信息,得到样本店铺下所有样本商品中归属于当前类目信息的样本商品的数量比例,将上述数量比例作为验证分析结果。
S511,基于上述验证分析结果,对上述每个识别维度的影响因子和对应的至少一个分支节点进行调整,更新上述预设树结构,基于更新后的预设树结构重复上述根据上述目标识别信息,确定上述预设树结构中与上述目标识别信息匹配的目标分支节点至上述对上述类目信息进行验证分析,得到验证分析结果的步骤,直至上述验证分析结果满足预设验证条件。
在一个可选的实施例中,预设验证条件为上述数量比例的预设阈值,直到上述数量比例大于预设阈值时,结束上述预设树结构的更新。
S513,将上述验证分析结果满足预设验证条件时的预设树结构作为上述店铺类目识别模型。
在实际应用中,可以将上述店铺类目识别模型持久化。
由以上实施例可见,本申请以样本店铺下的样本商品信息和对应的多级行业类目作为训练数据,对由多个识别维度和分支节点构建的预设树结构进行店铺类目识别训练,训练后的店铺类目识别模型可以识别出样本店铺的类目信息。在实际应用中,对于包括大量商品信息数据的店铺的类目识别有良好的泛化性。
以下介绍本申请实施例提供的一种店铺类目识别方法,图7为本申请实施例提供的一种店铺类目识别方法的流程示意图。需要说明的是,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图7所示,上述方法可以包括:
S701,获取待识别店铺的商品信息。
具体的,商品信息可以包括但不限于商品标题信息、商品价格信息、商品类目信息和商品数量信息。
S703,将上述商品信息输入商品类目预测模型进行商品类目预测,得到上述商品信息对应的多级标准类目。
具体的,将商品信息中的商品标题信息输入商品类目预测模型进行类目预测,得到上述商品信息对应的多级标准类目。
在本说明书实施例中,如图8所示,上述商品类目预测模型的训练方法可以包括:
S801,获取标准类目数据和样本店铺的样本商品信息,上述标准类目数据包括多个标准类目。
具体的,标准类目数据可以为在实际应用场景中通用的商品的标准分类类目;样本商品信息可以包括但不限于样本商品标题信息、样本商品价格信息、样本商品类目信息和样本商品数量信息。
在本说明书实施例中,通过PySpark程序(分布式计算引擎)从电商平台的历史数据中获取各样本店铺的样本商品信息。
S803,基于上述多个标准类目,确定上述样本商品信息对应的多级类目标签。
在实际应用中,在进行神经网络机器学习之前,可以先确定训练数据,具体的,可以获取标注有多级类目标签的样本商品信息作为训练数据。
以多级类目标签为三级类目标签为例,在一个具体的实施例中,三级类目标签的生成方法可以包括:
1)对样本商品信息和多个标准类目进行预处理;
具体的,预处理可以包括:
(1)清洗样本商品信息,检查样本商品信息中数据的一致性,处理无效值和缺失值。
(2)分析每个标准类目下样本商品的分布,去除对应的样本商品的数量较少的标准类目。
(3)对清洗后的样本商品信息进行分词,去除通用停用词、业务停用词和无意义词。
具体的,通用停用词可以为分词处理过程中常见的过滤词,业务停用词可以为电商平台基于业务目的设置的过滤词,无意义词可以为符号和数字。
在实际应用中,当样本商品信息和标准类目的文本为英文时,需要将文本中的文字统一为大写英文或小写英文。
2)基于预处理后的标准类目,确定预处理后的样本商品信息对应的三级类目标签。
具体的,对应的三级类目标签可以包括对应的第一级类目标签、对应的第二级类目标签、对应的第三级类目标签。
例如,当样本商品标题信息为“2021新款连帽外套夹克女子运动休闲服”时,对标题信息进行预处理后,得到预处理后的样本商品信息为“连帽外套/夹克/女子/运动/休闲服”,对应的第一级类目标签为“服饰”,第二级类目标签为“女装”,第三级类目标签为“运动服饰”。
S805,将上述样本商品信息输入多个预设神经网络进行商品类目预测训练,在训练过程中调整上述多个预设神经网络的模型参数至输出的上述样本商品信息对应的多级标准类目与上述对应的多级类目标签相匹配,上述多个预设神经网络中的每个预设神经网络分别用于预测上述样本商品信息对应的多级标准类目中的某一级标准类目。
具体的,将上述样本商品信息划分为训练样本商品信息、测试样本商品信息和验证样本商品信息,将训练样本商品信息输入多个预设神经网络进行商品类目预测训练,并将测试样本商品信息和验证样本商品信息分别输入训练完成的多个预设神经网络进行商品类目预测测试和商品类目预测验证。
以多级标准类目为三级标准类目为例,在一个具体的实施例中,上述将上述样本商品信息输入多个预设神经网络进行商品类目预测训练,在训练过程中调整上述多个预设神经网络的模型参数至输出的上述样本商品信息对应的多级标准类目与上述对应的多级类目标签相匹配可以包括:
1)将上述样本商品信息输入第一预设神经网络进行商品第一级类目预测训练,在训练过程中调整第一预设神经网络的模型参数至输出的上述样本商品信息对应的第一级标准类目与上述对应的第一级类目标签相匹配。
2)将上述样本商品信息输入第二预设神经网络进行商品第二级类目预测训练,在训练过程中调整第二预设神经网络的模型参数至输出的上述样本商品信息对应的第二级标准类目与上述对应的第二级类目标签相匹配。
3)将上述样本商品信息输入第三预设神经网络进行商品第三级类目预测训练,在训练过程中调整第三预设神经网络的模型参数至输出的上述样本商品信息对应的第三级标准类目与上述对应的第三级类目标签相匹配。
4)将当前的第一预设神经网络、当前的第二预设神经网络和当前的第三预设神经网络集合成上述多个预设神经网络,将对应的第一级类目标签、对应的第二级类目标签、对应的第三级类目标签整理成上述对应的三级类目标签。
在本说明书实施例中,上述第一预设神经网络、上述第二预设神经网络和上述第三预设神经网络均可以为基于FastText算法的文本分类模型,在实际应用中,在将样本商品信息输入文本分类模型进行商品类目预测训练之前,上述方法还包括:将上述样本商品信息的文本格式处理成FastText算法所需的文本格式。
S807,将当前的多个预设神经网络作为上述商品类目预测模型。
具体的,将当前的第一预设神经网络、当前的第二预设神经网络和当前的第三预设神经网络的集合作为商品类目预测模型并将商品类目预测模型持久化。
在本说明书实施例中,当商品类目预测模型为基于FastText算法的文本分类模型时,在上述将上述商品信息输入商品类目预测模型进行类目预测,得到上述商品信息对应的多级标准类目之前,上述方法还包括:
1)对商品信息进行分词,去除通用停用词、业务停用词和无意义词。
具体的,通用停用词可以为分词处理过程中常见的过滤词,业务停用词可以为电商平台基于业务目的设置的过滤词,无意义词可以为符号和数字。
2)将分词后商品信息的文本格式处理成FastText算法所需的文本格式。
由以上实施例可见,本实施例以标注有多级标准类目的样本商品信息作为训练数据,通过机器学习,训练出的商品类目预测模型可以识别样本商品信息对应的多级标准类目。
S705,基于店铺类目识别模型对上述商品信息对应的多级标准类目进行店铺类目识别,得到上述待识别店铺的类目信息。
其中,上述店铺类目识别模型根据上述店铺类目识别模型的生成方法生成后得到。
在本说明书实施例中,在进行店铺类目识别之前,还需要基于类目映射字典,将上述商品信息对应的多级标准类目映射为上述商品信息对应的多级业务类目。具体的,如图9所示,类目映射字典的构建方法可以包括:
S901,获取业务类目数据,上述业务类目数据包括多个业务类目,上述多个业务类目的数量小于上述多个标准类目的数量。
具体的,业务类目数据可以为电商平台根据自身的业务需求设置的类目信息。
S903,构建上述多个标准类目与上述多个业务类目的类目映射字典,上述多个业务类目中的每个业务类目对应至少一个标准类目。
在实际应用中,标准类目数据中的类目复杂繁多,业务类目数据相较于标准类目数据更加聚合,便于业务人员使用,因此,构建多个标准类目与多个业务类目的类目映射字典,例如,可以构建多个业务类目中的“服饰”与多个标准类目中的归属于“服饰”的子类目之间的映射关系,具体的,归属于“服饰”的子类目可以包括但不限于“男装”、“女装”、“运动服饰”、“羽绒服”。
在本说明书实施例中,如图10所示,上述基于店铺类目识别模型对上述商品信息对应的多级标准类目进行店铺类目识别,得到上述待识别店铺的类目信息可以包括:
S1001,基于上述商品信息对应的多级标准类目和上述类目映射字典,确定上述商品信息对应的多级业务类目。
具体的,根据上述类目映射字典,确定与多级标准类目对应的多级业务类目。例如,商品标题名称为“2021新款连帽外套夹克女子运动休闲服”的商品对应的三级标准类目为“服饰—女装—运动服饰”,根据类目映射字典,确定的三级业务类目为“服饰—服饰—服饰”。
S1003,基于上述商品信息和上述商品信息对应的多级业务类目,生成上述待识别店铺在上述每个识别维度下的目标识别信息。
在一个可选的实施例中,商品信息包括一个商品的商品信息,根据该一个商品的商品信息和对应的多级业务类目,确定该一个商品在上述多个识别维度下的识别信息,并将每个识别维度下的识别信息作为目标识别信息。
在另一个可选的实施例中,上述商品信息包括多个商品的商品信息,具体的,这里生成待识别店铺在每个识别维度下的目标识别信息的具体步骤与S201~S203中生成样本店铺在每个识别维度下的目标识别信息的步骤类似,具体步骤可以参见S201~S203中生成样本店铺在每个识别维度下的目标识别信息的相关描述,在此不再赘述。
S1005,将上述目标识别信息输入上述店铺类目识别模型进行店铺类目识别,得到上述待识别店铺的类目信息。
具体的,这里得到待识别店铺的类目信息的具体步骤与S501~S507中得到样本店铺的类目信息的步骤类似,具体步骤可以参见S501~S507中得到样本店铺的类目信息的相关描述,在此不再赘述。
在一个具体的实施例中,如图11所示,在上述将上述商品信息输入商品类目预测模型进行类目预测,得到上述商品信息对应的多级标准类目之后,上述方法还包括:
S1101,基于字符串搜索算法将多个店铺的商品信息与预设的敏感词库进行匹配,得到匹配结果。
在本说明书实施例中,上述字符串搜索算法可以为AC自动机算法(Aho–Corasick算法),上述多个店铺为电商平台上有类目识别需求的多个店铺,例如,可以为新增店铺或所售商品出现变动的店铺。
具体的,上述基于字符串搜索算法将多个店铺的商品信息与预设的敏感词库进行匹配,得到匹配结果可以包括:
1)基于预设的敏感词库,构建对应的前缀树。
2)将多个店铺的商品信息与对应的前缀树逐字符进行匹配,得到匹配结果。
S1103,当上述匹配结果为商品信息不包含敏感词时,将不包含敏感词的商品信息对应的店铺作为上述待识别店铺。
在实际应用中,当上述匹配结果为商品信息包含敏感词时,将对包含敏感词的商品信息对应的店铺作为高风险店铺,并由业务人员对高风险店铺进行人工审核。
本申请实施例提供了一种店铺类目识别模型的生成装置,如图12所示,上述装置包括:
样本商品信息获取模块1210,用于获取样本店铺的样本商品信息和上述样本商品信息对应的多级业务类目;
识别维度确定模块1220,用于确定店铺类目识别的多个识别维度、每个识别维度对应的至少一个分支节点和上述每个识别维度对应的类目识别约束信息;
目标识别信息生成模块1230,用于基于上述样本商品信息和上述样本商品信息对应的多级业务类目,生成上述样本店铺在上述每个识别维度下的目标识别信息;
树结构构建模块1240,用于基于上述每个识别维度的影响因子和对应的至少一个分支节点,构建店铺类目识别对应的预设树结构,上述影响因子表征上述每个识别维度在店铺类目识别中的权重;
店铺类目识别训练模块1250,用于基于上述目标识别信息和上述类目识别约束信息对上述预设树结构进行店铺类目识别训练,得到上述店铺类目识别模型。
在一个可选的实施例中,上述样本商品信息包括多个样本商品的商品信息,上述目标识别信息生成模块1230可以包括:
识别信息生成单元,用于根据每个样本商品的商品信息和对应的多级业务类目确定上述每个样本商品在上述多个识别维度下对应的识别信息;
目标识别信息确定单元,用于针对每个识别维度,将上述多个样本商品对应的识别信息满足预设维度条件的样本商品的商品信息和对应的多级业务类目作为上述样本店铺在上述每个识别维度下的目标识别信息。
在一个具体的实施例中,上述树结构构建模块1240可以包括:
层级信息确定单元,用于基于上述影响因子,确定上述每个识别维度的层级信息;
预设树结构生成模块,用于根据上述层级信息和上述每个识别维度对应的至少一个分支节点,生成上述预设树结构。
在一个具体的实施例中,上述店铺类目识别训练模块1250可以包括:
目标分支节点确定单元,用于根据上述目标识别信息,确定上述预设树结构中与上述目标识别信息匹配的目标分支节点,上述目标分支节点为识别维度区间中包含上述目标识别信息的分支节点;
目标分支路径单元,用于将上述预设树结构中包括上述目标分支节点的分支路径,作为目标分支路径;
目标分支节点遍历单元,用于遍历上述目标分支路径中每一目标分支节点,在遍历到每一目标分支节点时,判断当前遍历到的目标分支节点对应识别维度的目标识别信息是否满足对应的类目识别约束信息;
样本店铺类目信息确定单元,用于若满足,停止遍历,并从当前遍历到的分支节点对应识别维度下的目标识别信息包含的多级业务类目中确定上述样本店铺的类目信息;
验证分析单元,用于对上述类目信息进行验证分析,得到验证分析结果;
树结构更新单元,用于基于上述验证分析结果,对上述每个识别维度的影响因子和对应的至少一个分支节点进行调整,更新上述预设树结构,基于更新后的预设树结构重复上述根据上述目标识别信息,确定上述预设树结构中与上述目标识别信息匹配的目标分支节点至上述对上述类目信息进行验证分析,得到验证分析结果的步骤,直至上述验证分析结果满足预设验证条件;
店铺类目识别模型确定单元,用于将上述验证分析结果满足预设验证条件时的预设树结构作为上述店铺类目识别模型。
本申请实施例提供了一种店铺类目识别装置,如图13所示,上述装置包括:
商品信息获取模块1310,用于获取待识别店铺的商品信息;
商品类目预测模块1320,用于将上述商品信息输入商品类目预测模型进行类目预测,得到上述商品信息对应的多级标准类目;
店铺类目识别模块1330,用于基于店铺类目识别模型对上述商品信息对应的多级标准类目进行店铺类目识别,得到上述待识别店铺的类目信息;
其中,上述店铺类目识别模型根据上述店铺类目识别模型的生成装置生成后得到。
在本说明书实施例中,上述装置还可以包括:
样本获取单元,用于获取标准类目数据和样本店铺的样本商品信息,上述标准类目数据包括多个标准类目;
多级类目标签确定单元,用于基于上述多个标准类目,确定上述样本商品信息对应的多级类目标签;
商品类目预测模型训练单元,用于将上述样本商品信息输入多个预设神经网络进行商品类目预测训练,在训练过程中调整上述多个预设神经网络的模型参数至输出的上述样本商品信息对应的多级标准类目与上述对应的多级类目标签相匹配,上述多个预设神经网络中的每个预设神经网络分别用于预测上述样本商品信息对应的多级标准类目中的某一级标准类目;
商品类目预测模型确定模块,用于将当前的多个预设神经网络作为上述商品类目预测模型。
在本说明书实施例中,上述装置还可以包括:
业务类目数据获取单元,用于获取业务类目数据,上述业务类目数据包括多个业务类目,上述多个业务类目的数量小于上述多个标准类目的数量;
类目映射字典构建单元,用于构建上述多个标准类目与上述多个业务类目的类目映射字典,上述多个业务类目中的每个业务类目对应至少一个标准类目。
在本说明书实施例中,上述店铺类目识别模块1330可以包括:
多级业务类目确定单元,用于基于上述商品信息对应的多级标准类目和上述类目映射字典,确定上述商品信息对应的多级业务类目;
目标识别信息确定单元,用于基于上述商品信息和上述商品信息对应的多级业务类目,生成上述待识别店铺在上述每个识别维度下的目标识别信息;
店铺类目识别单元,用于将上述目标识别信息输入上述店铺类目识别模型进行店铺类目识别,得到上述待识别店铺的类目信息。
在一个具体的实施例中,在上述商品类目预测模块1320之后,上述装置还可以包括:
敏感词匹配单元,用于基于字符串搜索算法将多个店铺的商品信息与预设的敏感词库进行匹配,得到匹配结果;
待识别店铺确定单元,用于当上述匹配结果为商品信息不包含敏感词时,将不包含敏感词的商品信息对应的店铺作为上述待识别店铺。
本申请实施例提供了一种店铺类目识别设备,该店铺类目识别设备包括处理器和存储器,该存储器中存储有至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的店铺类目识别方法。
存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据上述设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
本申请实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行,即上述计算机设备可以包括移动终端、计算机终端、服务器或者类似的运算装置。以运行在服务器上为例,图14是本申请实施例提供的一种店铺类目识别方法的服务器的硬件结构框图。如图14所示,该服务器1400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,CPU)1410(处理器1410可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1430,一个或一个以上存储应用程序1423或数据1422的存储介质1420(例如一个或一个以上海量存储设备)。其中,存储器1430和存储介质1420可以是短暂存储或持久存储。存储在存储介质1420的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1410可以设置为与存储介质1420通信,在主设备服务器1400上执行存储介质1420中的一系列指令操作。主设备服务器1400还可以包括一个或一个以上电源1460,一个或一个以上有线或无线网络接口1450,一个或一个以上输入输出接口1440,和/或,一个或一个以上操作系统1421,例如Windows ServerTM,MacOS XTM,UnixTM, LinuxTM,FreeBSDTM等等。
输入输出接口1440可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括主设备服务器1400的通信供应商提供的无线网络。在一个实例中,输入输出接口1440包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口1440可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本领域普通技术人员可以理解,图14所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器1400还可包括比图14中所示更多或者更少的组件,或者具有与图14所示不同的配置。
本申请实施例还提供了一种存储介质,上述存储介质可设置于服务器之中以保存用于实现方法实施例中一种的店铺类目识别方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的店铺类目识别方法。
可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
由上述本申请提供的店铺类目识别模型生成、店铺类目识别的方法、装置、设备或存储介质的实施例可见,本申请中基于样本店铺下的样本商品信息和对应的多级业务类目对预设树结构进行店铺类目识别训练,得到具有高泛化能力的店铺类目识别模型,只需要将店铺下售卖的商品的信息输入到相应的模型,即可输出自动识别到的该店铺的类目信息,不仅能够高效地处理大数据量,快速识别店铺的类目信息,而且提高了店铺类目识别准确度,从而大大减少人工参与及降低相应的操作失误风险。
需要说明的是:上述本申请实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备和存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指示相关的硬件完成,上述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (13)

1.一种店铺类目识别模型的生成方法,其特征在于,所述方法包括:
获取样本店铺的样本商品信息和所述样本商品信息对应的多级业务类目;
确定店铺类目识别的多个识别维度、每个识别维度对应的至少一个分支节点和所述每个识别维度对应的类目识别约束信息;
基于所述样本商品信息和所述样本商品信息对应的多级业务类目,生成所述样本店铺在所述每个识别维度下的目标识别信息;
基于所述每个识别维度的影响因子和对应的至少一个分支节点,构建店铺类目识别对应的预设树结构,所述影响因子表征所述每个识别维度在店铺类目识别中的权重;
基于所述目标识别信息和所述类目识别约束信息对所述预设树结构进行店铺类目识别训练,得到所述店铺类目识别模型。
2.根据权利要求1所述的方法,其特征在于,所述样本商品信息包括多个样本商品的商品信息,所述基于所述样本商品信息和所述样本商品信息对应的多级业务类目,生成所述样本店铺在所述每个识别维度下的目标识别信息包括:
根据每个样本商品的商品信息和对应的多级业务类目确定所述每个样本商品在所述多个识别维度下对应的识别信息;
针对每个识别维度,将所述多个样本商品对应的识别信息满足预设维度条件的样本商品的商品信息和对应的多级业务类目作为所述样本店铺在所述每个识别维度下的目标识别信息。
3.根据权利要求1所述的方法,其特征在于,所述基于所述每个识别维度的影响因子和对应的至少一个分支节点,构建店铺类目识别对应的预设树结构包括:
基于所述影响因子,确定所述每个识别维度的层级信息;
根据所述层级信息和所述每个识别维度对应的至少一个分支节点,生成所述预设树结构。
4.根据权利要求1至3任一所述的方法,其特征在于,所述基于所述目标识别信息和所述类目识别约束信息对所述预设树结构进行店铺类目识别训练,得到所述店铺类目识别模型包括:
根据所述目标识别信息,确定所述预设树结构中与所述目标识别信息匹配的目标分支节点,所述目标分支节点为识别维度区间中包含所述目标识别信息的分支节点;
将所述预设树结构中包括所述目标分支节点的分支路径,作为目标分支路径;
遍历所述目标分支路径中每一目标分支节点,在遍历到所述每一目标分支节点时,判断当前遍历到的分支节点对应识别维度的目标识别信息是否满足对应的类目识别约束信息;
若满足,停止遍历,并从当前遍历到的分支节点对应识别维度下的目标识别信息包含的多级业务类目中确定所述样本店铺的类目信息;
对所述类目信息进行验证分析,得到验证分析结果;
基于所述验证分析结果,对所述每个识别维度的影响因子和对应的至少一个分支节点进行调整,更新所述预设树结构,基于更新后的预设树结构重复所述根据所述目标识别信息,确定所述预设树结构中与所述目标识别信息匹配的目标分支节点至所述对所述类目信息进行验证分析,得到验证分析结果的步骤,直至所述验证分析结果满足预设验证条件;
将所述验证分析结果满足预设验证条件时的预设树结构作为所述店铺类目识别模型。
5.一种店铺类目识别方法,其特征在于,所述方法包括:
获取待识别店铺的商品信息;
将所述商品信息输入商品类目预测模型进行商品类目预测,得到所述商品信息对应的多级标准类目;
基于店铺类目识别模型对所述商品信息对应的多级标准类目进行店铺类目识别,得到所述待识别店铺的类目信息;
其中,所述店铺类目识别模型根据权利要求1至4任一所述生成方法生成后得到。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
获取标准类目数据和样本店铺的样本商品信息,所述标准类目数据包括多个标准类目;
基于所述多个标准类目,确定所述样本商品信息对应的多级类目标签;
将所述样本商品信息输入多个预设神经网络进行商品类目预测训练,在训练过程中调整所述多个预设神经网络的模型参数至输出的所述样本商品信息对应的多级标准类目与所述对应的多级类目标签相匹配,所述多个预设神经网络中的每个预设神经网络分别用于预测所述样本商品信息对应的多级标准类目中的某一级标准类目;
将当前的多个预设神经网络作为所述商品类目预测模型。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
获取业务类目数据,所述业务类目数据包括多个业务类目,所述多个业务类目的数量小于所述多个标准类目的数量;
构建所述多个标准类目与所述多个业务类目的类目映射字典,所述多个业务类目中的每个业务类目对应至少一个标准类目。
8.根据权利要求7所述的方法,其特征在于,所述基于店铺类目识别模型对所述商品信息对应的多级标准类目进行店铺类目识别,得到所述待识别店铺的类目信息包括:
基于所述商品信息对应的多级标准类目和所述类目映射字典,确定所述商品信息对应的多级业务类目;
基于所述商品信息和所述商品信息对应的多级业务类目,生成所述待识别店铺在所述每个识别维度下的目标识别信息;
将所述目标识别信息输入所述店铺类目识别模型进行店铺类目识别,得到所述待识别店铺的类目信息。
9.根据权利要求5至8任一所述的方法,其特征在于,在所述将所述商品信息输入商品类目预测模型进行商品类目预测,得到所述商品信息对应的多级标准类目之后,所述方法还包括:
基于字符串搜索算法将多个店铺的商品信息与预设的敏感词库进行匹配,得到匹配结果;
当所述匹配结果为商品信息不包含敏感词时,将不包含敏感词的商品信息对应的店铺作为所述待识别店铺。
10.一种店铺类目识别模型的生成装置,其特征在于,所述装置包括:
样本商品信息获取模块,用于获取样本店铺的样本商品信息和所述样本商品信息对应的多级业务类目;
识别维度确定模块,用于确定店铺类目识别的多个识别维度、每个识别维度对应的至少一个分支节点和所述每个识别维度对应的类目识别约束信息;
目标识别信息生成模块,用于基于所述样本商品信息和所述样本商品信息对应的多级业务类目,生成所述样本店铺在所述每个识别维度下的目标识别信息;
树结构构建模块,用于基于所述每个识别维度的影响因子和对应的至少一个分支节点,构建店铺类目识别对应的预设树结构,所述影响因子表征所述每个识别维度在店铺类目识别中的权重;
店铺类目识别训练模块,用于基于所述目标识别信息和所述类目识别约束信息对所述预设树结构进行店铺类目识别训练,得到所述店铺类目识别模型。
11.一种店铺类目识别装置,其特征在于,所述装置包括:
商品信息获取模块,用于获取待识别店铺的商品信息;
商品类目预测模块,用于将所述商品信息输入商品类目预测模型进行商品类目预测,得到所述商品信息对应的多级标准类目;
店铺类目识别模块,用于基于店铺类目识别模型对所述商品信息对应的多级标准类目进行店铺类目识别,得到所述待识别店铺的类目信息;
其中,所述店铺类目识别模型根据权利要求10所述生成装置生成后得到。
12.一种店铺类目识别设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求5至9任一所述的店铺类目识别方法。
13.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求5至9任一所述的店铺类目识别方法。
CN202110387823.4A 2021-04-12 2021-04-12 一种店铺类目识别模型生成、店铺类目识别的方法及装置 Active CN112801720B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110387823.4A CN112801720B (zh) 2021-04-12 2021-04-12 一种店铺类目识别模型生成、店铺类目识别的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110387823.4A CN112801720B (zh) 2021-04-12 2021-04-12 一种店铺类目识别模型生成、店铺类目识别的方法及装置

Publications (2)

Publication Number Publication Date
CN112801720A true CN112801720A (zh) 2021-05-14
CN112801720B CN112801720B (zh) 2021-07-09

Family

ID=75816779

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110387823.4A Active CN112801720B (zh) 2021-04-12 2021-04-12 一种店铺类目识别模型生成、店铺类目识别的方法及装置

Country Status (1)

Country Link
CN (1) CN112801720B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113570427A (zh) * 2021-07-22 2021-10-29 上海普洛斯普新数字科技有限公司 一种提取识别线上或系统商品特征信息的系统
CN113570428A (zh) * 2021-07-23 2021-10-29 上海普洛斯普新数字科技有限公司 一种用于线上商品一致性筛选的系统
CN113627509A (zh) * 2021-08-04 2021-11-09 口碑(上海)信息技术有限公司 数据分类方法、装置、计算机设备及计算机可读存储介质
CN113780339A (zh) * 2021-08-03 2021-12-10 阿里巴巴(中国)有限公司 模型训练、预测及内容理解方法及电子设备
CN113962514A (zh) * 2021-09-09 2022-01-21 浪潮卓数大数据产业发展有限公司 一种经营风险识别的方法
CN114238643A (zh) * 2022-02-17 2022-03-25 苏州浪潮智能科技有限公司 敏感信息识别模型的构建、敏感信息识别方法及装置
CN115131068A (zh) * 2022-07-08 2022-09-30 连连(杭州)信息技术有限公司 一种店铺分类方法、装置和计算机存储介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7571411B2 (en) * 2006-01-12 2009-08-04 International Business Machines Corporation Methods and apparatus for providing flexible timing-driven routing trees
CN102737057A (zh) * 2011-04-14 2012-10-17 阿里巴巴集团控股有限公司 一种商品类目信息的确定方法及装置
CN103778548A (zh) * 2012-10-19 2014-05-07 阿里巴巴集团控股有限公司 商品信息与关键词匹配方法、商品信息投放方法及装置
CN107577660A (zh) * 2017-07-21 2018-01-12 阿里巴巴集团控股有限公司 类目信息识别方法、装置及服务器
CN108664514A (zh) * 2017-03-31 2018-10-16 阿里巴巴集团控股有限公司 一种图像搜索方法、服务器及存储介质
CN110287329A (zh) * 2019-07-04 2019-09-27 刘凡 一种基于商品文本分类的电商类目属性挖掘方法
CN111126442A (zh) * 2019-11-26 2020-05-08 北京京邦达贸易有限公司 一种物品关键属性生成方法、物品分类方法和装置
CN111353838A (zh) * 2018-12-21 2020-06-30 北京京东尚科信息技术有限公司 自动化校验商品类目的方法和装置
CN111651597A (zh) * 2020-05-27 2020-09-11 福建博思软件股份有限公司 一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法
CN111860575A (zh) * 2020-06-05 2020-10-30 百度在线网络技术(北京)有限公司 物品属性信息的处理方法、装置、电子设备和存储介质
CN112380349A (zh) * 2020-12-04 2021-02-19 有米科技股份有限公司 商品性别分类方法、装置及电子设备
US20210056434A1 (en) * 2019-08-19 2021-02-25 Sap Se Model tree classifier system
CN112463971A (zh) * 2020-09-15 2021-03-09 杭州商情智能有限公司 一种基于层级组合模型的电商商品分类方法及系统
CN112529646A (zh) * 2019-09-18 2021-03-19 北京京东尚科信息技术有限公司 一种商品分类方法和装置

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7571411B2 (en) * 2006-01-12 2009-08-04 International Business Machines Corporation Methods and apparatus for providing flexible timing-driven routing trees
CN102737057A (zh) * 2011-04-14 2012-10-17 阿里巴巴集团控股有限公司 一种商品类目信息的确定方法及装置
CN103778548A (zh) * 2012-10-19 2014-05-07 阿里巴巴集团控股有限公司 商品信息与关键词匹配方法、商品信息投放方法及装置
CN108664514A (zh) * 2017-03-31 2018-10-16 阿里巴巴集团控股有限公司 一种图像搜索方法、服务器及存储介质
CN107577660A (zh) * 2017-07-21 2018-01-12 阿里巴巴集团控股有限公司 类目信息识别方法、装置及服务器
CN111353838A (zh) * 2018-12-21 2020-06-30 北京京东尚科信息技术有限公司 自动化校验商品类目的方法和装置
CN110287329A (zh) * 2019-07-04 2019-09-27 刘凡 一种基于商品文本分类的电商类目属性挖掘方法
US20210056434A1 (en) * 2019-08-19 2021-02-25 Sap Se Model tree classifier system
CN112529646A (zh) * 2019-09-18 2021-03-19 北京京东尚科信息技术有限公司 一种商品分类方法和装置
CN111126442A (zh) * 2019-11-26 2020-05-08 北京京邦达贸易有限公司 一种物品关键属性生成方法、物品分类方法和装置
CN111651597A (zh) * 2020-05-27 2020-09-11 福建博思软件股份有限公司 一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法
CN111860575A (zh) * 2020-06-05 2020-10-30 百度在线网络技术(北京)有限公司 物品属性信息的处理方法、装置、电子设备和存储介质
CN112463971A (zh) * 2020-09-15 2021-03-09 杭州商情智能有限公司 一种基于层级组合模型的电商商品分类方法及系统
CN112380349A (zh) * 2020-12-04 2021-02-19 有米科技股份有限公司 商品性别分类方法、装置及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李晓峰,马静,李驰,朱恒民: "基于XGBoost模型的电商商品品名识别算法研究", 《数据分析与知识发现》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113570427A (zh) * 2021-07-22 2021-10-29 上海普洛斯普新数字科技有限公司 一种提取识别线上或系统商品特征信息的系统
CN113570428A (zh) * 2021-07-23 2021-10-29 上海普洛斯普新数字科技有限公司 一种用于线上商品一致性筛选的系统
CN113570428B (zh) * 2021-07-23 2024-02-02 上海普洛斯普新数字科技有限公司 一种用于线上商品一致性筛选的系统
CN113780339A (zh) * 2021-08-03 2021-12-10 阿里巴巴(中国)有限公司 模型训练、预测及内容理解方法及电子设备
CN113780339B (zh) * 2021-08-03 2024-03-29 阿里巴巴(中国)有限公司 模型训练、预测及内容理解方法及电子设备
CN113627509A (zh) * 2021-08-04 2021-11-09 口碑(上海)信息技术有限公司 数据分类方法、装置、计算机设备及计算机可读存储介质
CN113627509B (zh) * 2021-08-04 2024-05-10 口碑(上海)信息技术有限公司 数据分类方法、装置、计算机设备及计算机可读存储介质
CN113962514A (zh) * 2021-09-09 2022-01-21 浪潮卓数大数据产业发展有限公司 一种经营风险识别的方法
CN114238643A (zh) * 2022-02-17 2022-03-25 苏州浪潮智能科技有限公司 敏感信息识别模型的构建、敏感信息识别方法及装置
CN115131068A (zh) * 2022-07-08 2022-09-30 连连(杭州)信息技术有限公司 一种店铺分类方法、装置和计算机存储介质
CN115131068B (zh) * 2022-07-08 2023-12-26 连连(杭州)信息技术有限公司 一种店铺分类方法、装置和计算机存储介质

Also Published As

Publication number Publication date
CN112801720B (zh) 2021-07-09

Similar Documents

Publication Publication Date Title
CN112801720B (zh) 一种店铺类目识别模型生成、店铺类目识别的方法及装置
CN108960719B (zh) 选品方法和装置以及计算机可读存储介质
US20180341898A1 (en) Demand forecast
CN108320171A (zh) 热销商品预测方法、系统及装置
CN113420190A (zh) 一种商户风险识别方法、装置、设备及存储介质
CN111444334A (zh) 数据处理方法、文本识别方法、装置及计算机设备
CN110046889B (zh) 一种异常行为主体的检测方法、装置及服务器
CN111199474A (zh) 一种基于双方网络图数据的风险预测方法、装置和电子设备
CN108108438A (zh) 行为数据的识别方法及装置
CN108921587B (zh) 一种数据处理方法、装置及服务器
CN112036185B (zh) 一种基于工业企业构建命名实体识别模型的方法及装置
CN110858219A (zh) 物流对象信息处理方法、装置及计算机系统
CN113592605A (zh) 基于相似产品的产品推荐方法、装置、设备及存储介质
JP6308339B1 (ja) クラスタリングシステム、方法およびプログラム、並びに、レコメンドシステム
US20230230081A1 (en) Account identification method, apparatus, electronic device and computer readable medium
CN113392920B (zh) 生成作弊预测模型的方法、装置、设备、介质及程序产品
CN113570437A (zh) 一种产品推荐方法和装置
CN111445139A (zh) 业务流程模拟方法及装置、存储介质、电子设备
CN111582313A (zh) 样本数据生成方法、装置及电子设备
CN111008861A (zh) 基于智能预测的商品在线交易系统及方法
JP5304429B2 (ja) 顧客状態推定システム、顧客状態推定方法および顧客状態推定プログラム
CN116402546A (zh) 店铺风险归因方法及其装置、设备、介质、产品
CN115169960A (zh) 一种供应链风控处理方法及设备
CN108614811B (zh) 一种数据分析方法及装置
CN113987186B (zh) 一种基于知识图谱生成营销方案的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant