CN116438538A - 通过终身学习的电子商务中可扩展标签学习的系统和方法 - Google Patents

通过终身学习的电子商务中可扩展标签学习的系统和方法 Download PDF

Info

Publication number
CN116438538A
CN116438538A CN202180076286.XA CN202180076286A CN116438538A CN 116438538 A CN116438538 A CN 116438538A CN 202180076286 A CN202180076286 A CN 202180076286A CN 116438538 A CN116438538 A CN 116438538A
Authority
CN
China
Prior art keywords
tag
product
label
pseudo
tags
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180076286.XA
Other languages
English (en)
Inventor
单华松
周辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wodong Tianjun Information Technology Co Ltd
JD com American Technologies Corp
Original Assignee
Beijing Wodong Tianjun Information Technology Co Ltd
JD com American Technologies Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wodong Tianjun Information Technology Co Ltd, JD com American Technologies Corp filed Critical Beijing Wodong Tianjun Information Technology Co Ltd
Publication of CN116438538A publication Critical patent/CN116438538A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • G06Q30/0625Directed, with specific intent or strategy
    • G06Q30/0627Directed, with specific intent or strategy using item specifications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

终身标签学习的系统和方法。系统包括计算设备,其具有处理器和存储计算机可执行代码的存储设备。计算机可执行码用于:提供产品描述和表征产品的种子标签;使用产品描述和种子标签训练命名实体识别(NER)模型;使用NER模型从产品描述中预测伪标签;计算伪标签的置信度得分;将置信度得分与阈值比较,当伪标签的置信度得分大于阈值时,将伪标签定义为真标签;将真标签添加到种子标签以获得更新的标签;使用产品描述和更新的标签重复训练、预测、计算、比较和添加的步骤,以保持对更新的标签的更新。

Description

通过终身学习的电子商务中可扩展标签学习的系统和方法
交叉引用
在本公开的说明书中引用并讨论了一些参考文献,这些参考文献包括专利、专利申请以及各种出版物。对这些参考文献的引用和/或讨论仅是为了使本公开的描述清楚,而不是承认任一参考文献均为本文所公开内容的“现有技术”。本说明书中引用和讨论的所有参考文献的全部内容通过引用一并于此,其程度与每个参考文献单独通过引用并入的程度相同。
技术领域
本公开总体上涉及命名实体识别(named-entity recognition,NER)领域,更具体地,涉及用于以高精度和高召回率连续学习产品标签的系统和方法。
背景技术
本文的背景技术描述是为了概括地呈现本公开的上下文。在背景技术部分所描述的程度上,当前署名的发明人的工作以及在提交时可能不构成现有技术的描述的各方面,既不明确也不隐含地被认为是针对本公开的现有技术。
例如京东、淘宝的主流电子商务网站销售数万种产品。对于每种产品,操作员都会出于不同的操作目的对各种类型的标签进行定义。例如,他们可以在商品搜索栏中对用于搜索的产品标签进行定义,对用于顾客评论的产品标签及其分类进行定义,并且将产品标签定义为短标题中的销售点等。总体而言,这些标签对于电子商务网站的运营(从销售、营销,到顾客支持和产品团队)非常重要和关键。良好而准确的标签对用户的购物体验(例如,快速搜索、准确的产品评估),甚至电子商务公司的收入(例如,准确的推荐和业务增长)都有很大影响。
然而,设计好标签来准确定义产品的行业属性、功能、销售点、受众和商品场景是富有挑战性的。首先,它需要具有特定领域知识的产品专家,他们对产品、销售点及其受众充分了解。其次,电子商务网站的产品经常更换,货架每天都会上新。
因此,本领域存在着解决上述缺陷和不足的未解决的需求。
发明内容
在某些方面中,本公开涉及一种用于终身学习产品标签的系统。在某些实施例中,所述系统包括计算设备。所述计算设备包括处理器和存储有计算机可执行代码的存储设备,并且当在所述处理器处执行时,所述计算机可执行码被配置为:
检索产品的产品描述并提供多个种子标签,其中,所述产品描述包括与所述种子标签相同的文本,所述种子标签表征所述产品中的至少一个产品;
使用所述产品描述和所述种子标签来训练带名实体识别NER模型;
使用所述NER模型从所述产品描述中预测多个伪标签;
计算所述多个伪标签的置信度得分;
将每个置信度得分与阈值进行比较,当所述多个伪标签中的一个伪标签的置信度得分大于所述阈值时,将所述伪标签定义为真标签;
将所述真标签添加到所述种子标签以获得更新的标签;以及
使用所述产品描述和所述更新的标签重复训练、预测、计算、比较和添加的步骤,以保持对所述更新的标签的更新。
在某些实施例中,所述种子标签的数量较小,而在迭代学习之后的所述更新的标签的数量较大。
在某些实施例中,所述NER模型包括来自变换器的双向编码器表示(BERT)层、双向长短期记忆(BiLSTM)层和条件随机场(CRF)层。在某些实施例中,将这三层从输入端到输出端以上述顺序依次布置。
在某些实施例中,所述多个伪标签中的每个伪标签的置信度得分是从所述产品描述中检测到的所述伪标签的数量。例如,如果从三个产品描述中检测到相同的伪标签,则该伪标签的置信度得分为3。
在某些实施例中,所述标签属于不同的类型,并且所述标签的类型包括指示所述产品的品牌的品牌标签、指示所述产品的重要物理特征的行业属性标签、指示产品的功能的功能标签、指示产品的风格的风格标签、指示顾客对产品的印象的感受标签、指示适于使用产品的场景的场景标签、以及指示产品的目标顾客的受众标签,所述品牌标签的阈值是2~3,所述行业属性标签、所述风格标签、所述受众标签和所述场景标签的阈值为5~20,以及所述感受标签的阈值为10~50。
在某些实施例中,在重复训练、预测、计算、比较和添加的步骤的不同轮次期间增加所述标签的阈值数值。
在某些实施例中,所述NER模型被配置为为所述产品描述的每个字符提供标记,所述标记包括品牌的开始Bbra、品牌的中间Mbra、品牌的结束Ebra、产品行业属性的开始Batt、产品行业属性的中间Matt、产品行业属性的结束Eatt、功能的开始Bfun、功能的中间Mfun、功能的结束Efun、风格的开始Bsty、风格的中间Msty、风格的结束Esty、感受的开始Bfel、感受的中间Mfel、感受的结束Efel、场景的开始Bsce、场景的中间Msce、场景的结束Esce、受众人的开始Bhum、受众人的中间Mhun、受众人的结束Ehum、以及无标记O,所述标记用来生成所述标签。
在某些实施例中,所述CRF层被配置为通过最大化句子标记得分来学习标记之间的限制,所述多个句子预测中的每个句子预测的句子标记得分通过以下方式计算:
Figure BDA0004223739820000031
其中,X是所述文档之一并且包括n个词x1,x2,...,xn,Y是所述文档之一的预测标记序列并且包括y1,y2,...,yn
Figure BDA0004223739820000032
是表示从标记yi到标记yi+1的转换的转换得分矩阵且对应于相邻标记之间的限制,/>
Figure BDA0004223739820000033
是所述文档中的第i词具有标签yi的可能性。
在某些实施例中,所述多个句子预测中的每个句子预测的句子标记得分通过以下方式被归一化:
Figure BDA0004223739820000041
其中,p(y|X)是文档X相对于标签y的归一化可能性,
Figure BDA0004223739820000042
是所述文档的预测标签中的任一个。
在某些实施例中,所述计算机可执行代码还被配置为:提供所述更新的标签作为相应产品的关键词,以使得用户可以使用所述关键词,通过搜索引擎找到相应产品。
在某些实施例中,所述计算机可执行代码还被配置为:提供所述更新的标签作为相应产品的关键词,并在相应产品的主页上显示所述关键词作为评论标签或标题词。
在某些方面中,本公开涉及一种用于终身学习标签的方法。在某些实施例中,所述方法包括:
由计算设备检索产品的产品描述,并由计算设备提供多个种子标签,其中,所述产品描述包括与所述种子标签相同的文本,所述种子标签表征所述产品中的至少一个产品;
由所述计算设备使用所述产品描述和所述种子标签来训练命名实体识别NER模型;
由所述计算设备使用所述NER模型从所述产品描述中预测多个伪标签;
由所述计算设备计算所述多个伪标签的置信度得分;
由所述计算设备将每个置信度得分与阈值进行比较,当所述多个伪标签中的一个伪标签的置信度得分大于所述阈值时,将所述伪标签定义为真标签;
由所述计算设备将所述真标签添加到所述种子标签以获得更新的标签;以及
由所述计算设备使用所述产品描述和所述更新的标签重复训练、预测、计算、比较和添加的步骤,以保持对所述更新的标签的更新。
在某些实施例中,所述NER模型包括来自变换器的双向编码器表示(BERT)层、双向长短期记忆(BiLSTM)层和条件随机场(CRF)层。
在某些实施例中,所述多个伪标签中的每个伪标签的置信度得分是从所述产品描述中检测到的所述伪标签的数量。
在某些实施例中,所述标签属于不同的类型,并且所述标签的类型包括指示所述产品的品牌的品牌标签、指示所述产品的重要物理特征的行业属性标签、指示所述产品的功能的功能标签、指示所述产品的风格的风格标签、指示顾客对所述产品的印象的感受标签、指示适于使用产品的场景的场景标签、以及指示产品的目标顾客的受众标签,所述品牌标签的阈值是2~3,所述行业属性标签、所述风格标签、所述受众标签和所述场景标签的阈值为5~20,以及所述感受标签的阈值为10~50。
在某些实施例中,每个产品描述具有至少一个句子,每个句子中的每个字符具有标记。所述NER模型被配置为为所述产品描述的每个字符提供标记,所述标记包括品牌的开始Bbra、品牌的中间Mbra、品牌的结束Ebra、产品行业属性的开始Batt、产品行业属性的中间Matt、产品行业属性的结束Eatt、功能的开始Bfun、功能的中间Mfun、功能的结束Efun、风格的开始Bsty、风格的中间Msty、风格的结束Esty、感受的开始Bfel、感受的中间Mfel、感受的结束Efel、场景的开始Bsce、场景的中间Msce、场景的结束Esce、受众人的开始Bhum、受众人的中间Mhum、受众人的结束Ehum、以及无标记O,所述标记用来生成所述标签。
在某些实施例中,所述CRF层被配置为通过最大化句子标记得分来学习标记之间的限制,所述多个句子预测中的每个句子预测的句子标记得分通过以下方式计算:
Figure BDA0004223739820000051
其中,X是所述文档之一并且包括n个词x1,x2,...,xn,Y是所述文档之一的预测标记序列并且包括y1,y2,...,yn
Figure BDA0004223739820000052
是表示从标记yi到标记yi+1的转换的转换得分矩阵且对应于相邻标记之间的限制,/>
Figure BDA0004223739820000053
是所述文档中的第i词具有标签yi的可能性。
在某些实施例中,所述多个句子预测中的每个句子预测的句子标记得分通过以下方式被归一化:
Figure BDA0004223739820000061
其中,p(y|X)是文档X相对于标签y的归一化可能性,
Figure BDA0004223739820000062
是所述文档的预测标签中的任一个。
在某些实施例中,所述方法还包括:
提供所述更新的标签作为相应产品的关键词,以使得用户可以使用所述关键词,通过搜索引擎找到相应产品;或者
提供所述更新的标签作为相应产品的关键词,并在相应产品的主页上显示所述关键词作为评论标签或标题词。
在某些方面中,本公开涉及一种存储有计算机可执行代码的非瞬时计算机可读介质。在某些实施例中,当在计算设备的处理器处执行时,所述计算机可读代码被配置为执行上述方法。
通过以下结合附图及其标题对优选实施例的描述,本公开的这些和其他方面将变得显而易见,尽管在不脱离本公开的新颖概念的精神和范围的情况下,其中的变化和修改可能会受到影响。
附图说明
通过详细描述和附图将更加充分地理解本公开。这些附图示出了本公开的一个或多个实施例,并且与书面描述一起用于解释本公开的原理。在可能的情况下,在附图中使用相同的附图标记来指代实施例的相同或相似元件,其中:
图1示意性地示出了根据本公开的某些实施例的终身标签学习系统的架构。
图2示意性地示出了根据本公开的某些实施例的根据产品描述的自动标签学习。
图3示意性地示出了根据本公开的某些实施例的用于终身标签学习的系统。
图4示意性地示出了根据本公开的某些实施例的命名实体识别模型。
图5A示意性地示出了根据本公开的某些实施例的产品搜索界面。
图5B示意性地示出了根据本公开的某些实施例的顾客评论的组织。
图5C示意性地示出了根据本公开的某些实施例的产品的短标题。
图6示意性地示出了根据本公开的某些实施例的用于终身标签学习的方法。
图7示意性地示出了根据本公开的某些实施例的可扩展标签学习算法的伪代码。
图8示意性地示出了根据本公开的某些实施例的根据旧产品进行标签学习的示例。
图9示意性地示出了根据本公开的某些实施例的根据新产品进行标签学习的示例。
具体实施方式
在以下示例中更具体地描述本公开,这些示例仅用于说明,因为其中的许多修改和变化对本领域技术人员来说是显而易见的。现在详细描述本公开的各实施例。参考附图,整个视图中,相似的附图标记指代相似组件。如本文的说明书和随后的权利要求中所使用的,除非上下文另有明确规定,否则“一”、“一个”和“所述”的含义包括复数引用。如本文所用,术语“包含”、“包括”、“携带”、“具有”、“含有”、“涉及”等应理解为开放式的,即意味着包括但不限于。
本说明书中所使用的术语在本领域中、在本公开的上下文中以及在使用每个术语的特定上下文中通常具有其通常含义。用于描述本公开的某些术语在下文或说明书的其他地方进行讨论,以向从业者提供关于本公开的描述的额外指导。应当意识到,同样的事情可以用不止一种方式来表达。因此,替代语言和同义词可以用于本文所讨论的任何一个或多个术语,也不需要考虑是否特别需要在本文中对术语进行阐述或讨论。一个或多个同义词的叙述并不排除其他同义词的使用。本说明书中任何地方的示例(包括本文所讨论的任何术语的示例)的使用仅是说明性的,而决不限制本公开或任何示例术语的范围和含义。同样,本公开不限于本说明书中所给出的各实施例。
除非另有定义,否则本文中使用的所有技术和科学术语具有与本公开所属领域的普通技术人员通常理解的含义相同的含义。在存在冲突的情况下,以包括定义的本文为准。如本文所用,术语“模块”或“单元”可以指代、属于、或者包括专用集成电路(ASIC);电子电路;组合逻辑电路;现场可编程门阵列(FPGA);执行代码的(共享、专用或组)处理器;提供所描述的功能的其他合适的硬件组件;或者诸如片上系统中的上述部分或全部的组合、或者是它们的一部分。术语“模块”或“单元”可以包括存储由处理器执行的代码的(共享、专用或组)存储器。
本文所使用的术语“代码”可以包括软件、固件和/或微代码,并且可以指代程序、例程、函数、类和/或对象。如上所述,术语共享代表可以使用单个(共享)处理器来执行来自多个模块的部分或全部代码。此外,来自多个模块的部分或全部代码可以由单个(共享)存储器存储。如上所述,术语组代表可以使用一组处理器来执行来自单个模块的部分或全部代码。此外,可以使用一组存储器来存储来自单个模块的部分或全部代码。
本文中使用的术语“接口”通常指在组件间的交互点处用于执行组件间的数据通信的通信工具或手段。通常,接口可以在硬件和软件两个层面上都适用,并且可以是单向或双向接口。物理硬件接口的示例可以包括电连接器、总线、端口、电缆、端子和其他I/O设备或组件。与接口通信的组件可以是,例如,计算机系统的多个组件或外围设备。
本公开涉及计算机系统。如附图所示,计算机组件可以包括物理硬件组件和虚拟软件组件,物理硬件组件被示出为实线块,虚拟软件组件被示出为虚线块。本领域普通技术人员应当理解的是,除非另有说明,否则这些计算机组件可以以软件、固件或硬件组件、或其结合的形式来实现,但不限于此。
本文所描述的装置、系统和方法可以由一个或多个处理器执行的一个或多个计算机程序来实现。计算机程序包括存储在非瞬时有形计算机可读介质上的处理器可执行指令。计算机程序还可以包括存储的数据。非瞬时有形计算机可读介质的非限制性示例是非易失性存储器、磁存储器和光存储器。
现在将在下文中参考附图更全面地描述本公开,在附图中示出了本公开的实施例。然而,本公开可以以许多不同的形式实施,并且不应被解释为限于本文所阐述的实施例;相反,提供这些实施例使得本公开变得彻底和完整,并且将本公开的范围充分传达给本领域技术人员。
在某些方面,本公开涉及一种按比例从产品描述文本自动学习良好且准确的标签的系统。在某些实施例中,本公开将标签学习任务视为命名实体识别(NER)问题,并将命名实体视为标签。NER是一个信息提取的子任务,旨在非结构化文本中提到的命名实体进行定位,并将其分类至预定义的类别中,如人名、组织、地点等。在电子商务网站中,命名实体不同,有意义的标签可以定义为产品的行业属性、功能、销售点、受众和商品场景。
为了解决电子商务中特殊的“NER”问题,主要挑战是可扩展性,这需要在没有任何人工注释的情况下从新产品的描述文本中学习用于新产品的有意义的标签。另一个挑战是标签预测的准确性和召回率。与命名实体通常是名词的传统NER问题不同,本公开将命名实体定义为包括名词、形容词、短语,这增加了准确和完整识别的难度。另一个挑战是,对于京东、淘宝这样的中国电子商务网站来说,由于中文分词和多义的干扰,中文NER问题比英文NER问题更具挑战性。
根据本公开的某些实施例的系统和模型通过以下设计解决了上述挑战。(1)本公开提供了一种终身标签学习系统,其可以通过迭代地优化模型并且累积地提升有意义的标签,以永不停息的方式自动学习电子商务中数万种产品的标签,从而学习用于现有和新兴产品的完整、准确的标签。(2)本公开提供了一种高精度、高召回率和可扩展的标签学习算法,其可以区别地处理各种类型(名词、形容词和短语)的实体。(3)本公开提供了一种包括BERT+BiLSTM+CRF层的NER模型。分层结构可以释放多义词和分词的干扰,提供高精度的命名实体识别。
图1示意性地示出了根据本公开的某些实施例的终身标签学习系统的架构。如图1所示,对于具有产品描述和从产品描述中提取的产品的一些初始种子标签的集合的初始数据102,五步标签学习迭代包括模型训练104、候选生成106、候选得分和排名108、标签提升110和数据增强112。具体而言,初始数据102包括用于许多产品的产品描述,每个产品可以是一个较窄的产品类别,例如服装中的T恤、裙子和牛仔裤,家用电器中的电视、冰箱、洗衣机和微波炉,家具中的桌子、沙发和床,以及化妆品中的精华、口红和香水。每种产品,如T恤,可能有数千种描述,其中部分产品具有初始种子标签。种子标签的数量可能是有限的,并且部分产品可能没有种子标签。产品描述和种子标签用于生成训练数据集,并且训练数据集用于模型训练104。该模型可以是NER模型。然后,在步骤106,训练后的模型用于根据产品描述预测标签,以获得候选或伪标签。然后,在步骤108,为伪标签分配置信度得分,并且使用置信度得分进行排名。在步骤110,例如通过阈值来过滤经排名的伪标签,具有高置信度得分的伪标签被提升为真标签。在步骤112,将真标签添加到种子(引导)标签,并且用新添加的标签来增强数据。然后,增强的数据可以用于另一个模型训练104。迭代104~112的步骤,直到没有学习新的标签,或者标签的数量达到预定数量。此外,每当新产品及其描述被添加到数据中时,可以执行迭代步骤来获得用于这些新产品的标签。在某些实施例中,学习的标签可以由其他模块或应用程序使用。
图2示意性地示出了根据本公开的某些实施例的根据产品描述自动学习准确标签。该学习可扩展,并且可以通过图1中所示的步骤来执行。图2示出了四个产品1~4。每个产品可以是一个较窄的产品类别,如T恤或电视,每个产品都有大量产品描述文本。每个描述文本由圆圈显示,也称为实例。圆圈中的三角形表示从相应实例中识别的标签,圆圈中的问号是相应实例中未识别的标签。与传统NER模型不同,本公开的某些实施例使用终身学习框架来迭代地优化其模型,并以永不停息的方式学习标签,因此它可以在没有任何人参与的情况下增加对现有产品的标签学习的召回率,并扩展到新产品。在初始状态202,存在产品1的少数标签(种子标签),并且不存在产品2~4的标签。在学习标签的迭代之后,在状态204,除了种子标签之外,识别出产品1的更多标签,还识别出产品2~4的一些标签。可以对该过程执行多次迭代。在状态206,识别出产品1~4的所有标签。
图1和图2是根据某些实施例的本公开理念的简要描述,以下提供了更多细节。图3示意性地示出了根据本公开的某些实施例的用于终身标签学习的系统。如图3所示,系统300包括计算设备310。在某些实施例中,计算设备310可以是服务器计算机、集群、云计算机、通用计算机、无头计算机或专用计算机。计算设备310可以包括但不限于处理器312、存储器314和存储设备316。在某些实施例中,计算设备310可以包括其他硬件组件和软件组件(未示出),以执行其相应的任务。这些硬件和软件组件的示例可以包括但不限于其他所需的存储器、接口、总线、输入/输出(I/O)模块或设备、网络接口和外围设备。
处理器312可以是被配置为控制计算设备310的操作的中央处理单元(CPU)。在某些实施例中,处理器312可以执行计算设备310的操作系统(OS)或其他应用程序。在某些实施例中,计算设备310可以具有多于一个的CPU作为处理器,例如两个CPU、四个CPU、八个CPU或任何合适数量的CPU。存储器314可以是易失性存储器,例如随机存取存储器(RAM),用于在计算设备310的操作期间存储数据和信息。在某些实施例中,存储器314可以是易失性存储器阵列。在某些实施例中,计算设备310可以在一个以上处理器312和/或一个以上存储器314上运行。存储设备316是非易失性数据存储介质或设备。存储设备316的示例可以包括闪存、存储卡、USB驱动器、固态驱动器或其他类型的非易失性存储设备,如硬盘驱动器、软盘、光盘驱动器或任何其他类型的数据存储设备。在某些实施例中,计算设备310可以具有多于一个的存储设备316。在某些实施例中,计算设备310还可以包括远程存储设备316。
存储设备316存储计算机可执行代码。计算机可执行代码包括终身标签学习应用程序318。终身标签学习应用程序318包括当在处理器312处执行时可以迭代地执行标签学习的代码或指令。在某些实施例中,终身标签学习应用程序318可以不是可执行代码,而是与可执行代码的功能相对应的电路的形式。通过提供电路而非可执行代码,极大地提高了终身标签学习应用程序318的操作速度。在某些实施例中,如图3所示,终身标签学习应用程序318包括数据启动模块320、训练模块322、NER模型324、伪标签生成模块326、伪标签评分和排名模块328、伪标签过滤模块330、数据增强模块332、功能模块334和用户接口336。
数据启动模块320被配置为提供初始数据集,用于训练NER模型324并允许NER模型324从中对新标签进行预测。初始数据集包括多个产品、每个产品的产品描述以及从部分产品描述中提取的种子标签。这里的每个产品都是一个较窄的产品类别,如T恤、鞋子、微波炉和电视,该类别中的特定产品为命名商品。因此,每个产品可以对应于数千个特定商品或库存单位(SKU),并且可以包括从这些特定商品检索到的数千个产品描述。提供与某些产品描述相对应的种子标签,种子标签的数量可以在十到几百的范围内。种子标签包括产品品牌类型、产品行业属性、产品功能、产品风格、产品感受、产品场景和产品受众。产品品牌指示了商品的品牌,如耐克、西门子、海尔。产品行业属性指示了通常由制造商提供的商品的重要物理特征,包括纯色、1级、黑色、拼花、棕色、金丝、卷曲、蓝色、加厚、印刷、金属手柄、条纹、不锈钢、白色、漆面、钢化玻璃、缝线、双开门、古董饰面、中空、紫檀、金色、绿色、黄色、3D、灰色等。产品功能指示了商品的功能,包括百搭、无醛、舒适、大容量、防霉、耐用、防尘、静音、零醛、节省空间、防腐等。产品风格包括中式、欧式、欧美风、日式、韩式、经典、潮流、极简,艺术、运动、复古、休闲等。产品感受包括轻盈、美丽、简洁、时尚、奢华、流行、顺滑、优雅、新鲜、高价值、高端、简单、温暖等。产品场景指示了适合使用产品的场景,如家、办公室、自然、书房、度假、客厅、餐厅等。产品受众指示了产品的目标顾客,如女性、男性、儿童、青少年、老年人、教师、孕妇等。在某些实施例中,上述类型的标签是预定义的。
训练模块322被配置为,在启动终身学习应用318时,使用数据启动模块320提供的初始数据集来训练NER模型324,并通知伪标签生成模块326已使用当前的数据集训练好NER模型324;并且在初始化后,使用由数据增强模块332准备的增强数据集来重新训练NER模型324,并且通知伪标签生成模块326已使用当前数据集训练好NER模型324。
NER模型324被配置为响应于来自训练模块322的指令,使用当前可用数据集迭代地训练,并且被配置为响应于来自伪标签生成模块326的指令,从当前可用数据集中预测标签。图4示意性地示出了根据本公开的某些实施例的NER模型网络架构。如图4所示,NER模型依次包括来自变换器的双向编码器表示(bidirectional encoder representations fromtransformers,BERT)嵌入层、双向长短期记忆(bidirectional long short-term memory,BiLSTM)层和条件随机场(conditional random field,CRF)层。模型的输入是句子,例如产品描述的汉字序列。输出是标记序列,该序列中的每个标记是每个字符的标记分类,例如,品牌的开始(Bbra)、品牌的中间(Mbra)、品牌的结束(Ebra)、产品行业属性的开始(Batt)、产品行业属性的中间(Matt)、产品行业属性的结束(Eatt)、功能的开始(Bfun)、功能的中间(Mfun)、功能的结束(Efun)、风格的开始(Bsty)、风格的中间(Msty)、风格的结束(Esty)、感受的开始(Bfel)、感受(Mfel)的中间、感受的结束(Efel)、场景的开始(Bsce)、场景的中间(Msce)、场景的结束(Esce)、受众人的开始(Bhum)、受众人的中间(Mhum)、受众人的结束(Ehum)、以及无标记(O)。请注意,之后对标签进行提取,属性标签将包括按Batt、Matt和Eatt顺序的字符或词;功能标签将包括按Bfun、Mfun、Efun顺序的字符或词。因此,可以从图4所示的标记句子中提取三个标签,这三个标签是属性标签、功能标签和受众人标签。
嵌入层采用BERT。BERT旨在通过在所有层的左右上下文上联合调节,从大规模未标记文本中预训练深度双向表示,多义词将根据其语义和上下文嵌入到多个差异向量中。由于BERT同时考虑了词嵌入的左右上下文,因此它可以准确地表示词的语义,从而可以处理中文分词和多义的干扰。
第二层是Bi-LSTM层。长短期记忆(long short-term memory,LSTM)是一种人工循环神经网络(recurrent neural network,RNN)架构。LSTM的单元由单元格、输入门、输出门和遗忘门组成。单元格在任意时间间隔内记住数值,三个门调节信息进出单元格的流动。LSTM部分解决了消失梯度问题,因为它允许梯度也不变地流动。此外,Bi-LSTM使用两个方向,可以使用来自当前字符的左右上下文的句子中的输入信息。因此,BiLSTM可以准确地表示和记忆长句中的词依赖性。
最后一层是CRF层,这在本公开中优于Softmax。用于分类的Softmax层仅独立地标记每个字符。相反,CRF可以对序列标记任务的限制加以学习,并考虑序列依赖性。例如,“Ebra”不能在句子中跟在“Bfun”后面,但Softmax不知道。相反,CRF层可以使用句子级标记信息,对每两个不同标记的转换行为进行建模,并对标记之间的限制加以学习。具体地,CRG层被配置为最大化句子标记得分,以对句子中相邻标记之间的限制加以学习。在某些实施例中,每个句子标记的得分通过以下方式计算:
Figure BDA0004223739820000141
其中,X是产品描述的输入句子,句子X包括n个词x1,x2,...,xn。Y是句子的预测标记序列,包括词或字符标记y1,y2,....,yn。A是转换得分的矩阵,使得
Figure BDA0004223739820000142
表示从标记yi到标记yi+1的转换的得分。y0和yn是句子的开始和结束的标记。P是由BiLSTM层输出的得分矩阵,/>
Figure BDA0004223739820000143
对应于第i词的yi标记的得分。例如,如果句子包括6个字符,即n=6,则该句子可以定义为“开始-字符1-字符2-字符3-字符4-字符5-字符6-结束”。因此,从“开始到字符1”的转换到“字符6到结束”的转换的转换关系为7个。在某些实施例中,CRF层的后处理的CRF层进一步归一化句子X的可能句子标记y的得分。归一化指数函数(例如softmax函数)的全部可能的句子标记(标记序列)的概率定义为:
Figure BDA0004223739820000144
其中,p(y|X)是句子X相对于标记y的归一化可能性,
Figure BDA0004223739820000145
是预测的句子标记中的任何一个。得分最高的一个句子标记被视为正确的句子标记预测,并将句子标记预测与真实标签进行比较,以获得转换矩阵A的参数。经过训练后,CRF可以使用BiLSTM的输出和转换矩阵来获得句子的标记。
总之,新的模型结构防止了分词和多义的干扰,并且可以识别各种词和短语的实体。具体来说,BERT是基于上下文的词嵌入,它可以解决多义问题,因为如果一个词有几个含义,它会基于其语义有不同的嵌入;BiLSTM可以捕捉左右上下文,准确地表示和记忆长句中的词依赖关系;CRF可以对序列标记的限制加以学习,并准确地表示标记依赖性。因此,NER模型324通过使用BERT+BiLSTM+CRF的网络架构来提高标签学习的精度,并解决了多义和分词的问题。
伪标签生成模块326被配置为,在从NER模型324接收到句子标记时,提取词标记以形成数据集的伪标签,并将伪标签发送到伪标签评分和排名模块328。
伪标签评分和排名模块328被配置为,在接收到伪标签时,计算每个伪标签的置信度得分,使用它们的置信度得分对来自每个产品的伪标签进行排名,并将经排名的伪标签及其置信度得分发送到伪标签过滤模块330。例如,T恤等产品可能有数千个描述句子,描述句子中的每个词都被标记,从标记中提取标签,同一标签可能存在于若干个不同的描述句子中。因此,对于每个伪标签,伪标签评分和排名模块328被配置为计算同一标签在不同描述句子中出现的次数,并使用该次数作为伪标签的置信度得分。相同类型的伪标签也可以被分组在一起,使得每种类型的标签根据其置信度得分具有伪标签排名列表。例如,对于例如T恤的产品1,品牌类型的标签可以具有排名,受众类型的标签可以具有另一排名,场景类型的标签可以具有又一排名。对于例如电视的产品2,品牌类型的标签可以具有排名,功能类型的标签可以具有另一排名,场景类型的标签可以具有又一排名。然而,排名不是必需的。
伪标签过滤模块330被配置为,在从伪标签评分和排名模块328接收到经排名的伪标签及其置信度得分时,过滤伪标签以获得经过滤的标签,并将经过滤的标签添加到产品的当前真标签中。在某些实施例中,通过将伪标签的置信度得分与预定阈值进行比较来执行过滤。当伪标签的置信度得分等于或大于阈值时,伪标签被视为真标签。在某些实施例中,不同类型标签的预定阈值具有不同的值。例如,品牌标签的阈值可以是2或3,而人的感受的阈值可以在5~20的范围内,例如10。在某些实施例中,不同类型的产品的相同类型的标签的阈值可以不同。在某些实施例中,相同类型的标签的阈值可以在终身学习的不同的迭代中变化,其中,当已经有产品的大量标签时,可以在随后的迭代中增加阈值。
数据增强模块332被配置为,当经过滤的伪标签被添加为真标签时,准备更新的数据集,并通知训练模块322数据集已经被更新,使得训练模块322可以开始对NER模型324进行再训练。更新后的数据集包括产品、产品描述和更新的标签。在某些实施例中,可以在NER模型324的再训练迭代之前将具有新的产品描述和(可选的)新标签的新产品添加到更新的数据集。在某些实施例中,数据增强模块332还被配置为当不存在产品的新的经过滤伪标签、或者新的经过滤伪标签的数量小于产品的预定数量、或者产品的真标签的总数等于或大于预定期望值时,停止迭代。
功能模块334被配置为,当终身学习被执行一段时间时,使用当前标签来执行特定的功能或任务。在某些实施例中,该功能是电子商务网站中的产品搜索。如图5A所示,在搜索界面500A中,在顶部提供搜索栏以在家用电器和大家电下执行搜索,在搜索栏下列出推荐的搜索项。品牌的可搜索项包括西门子、海尔、采埃孚、小米、维诺卡夫、小天鹅、宜科和创维。屏幕尺寸的可搜索项包括78英寸及以上、70~75英寸、65英寸、58~60英寸和55英寸及以下。洗涤能力的可搜索项为20公斤及以上、10~20公斤、9.1~9.9公斤、9公斤和8.1~8.9公斤。频率的可搜索项包括恒频和变频。高级搜索项分为加热和制冷类型、电机类型、高度、能效等级和产品特征。产品特征下的项目包括智能空调、自动清洁、静音空调、圆柱形空调、独立除湿、易于取用和清洗。当终身学习的产品标签可用时,功能模块334被配置为将标签或添加的标签添加到搜索界面的项目中,并将项目链接到具有该标签的产品。因此,当顾客搜索学习的标签的项目时,可以将具有学习的标签的产品提供给顾客。在某些实施例中,学习的标签可以是,例如,“高级”选项的“产品特征”下的项目。
在某些实施例中,功能是为顾客的评论提供标签,以便组织顾客的评论。如图5B所示,在产品的评论页面500B中,提供评论标签,每个评论标签对应于具有评论标签的一定数量的顾客评论。评论标签可以是,例如,尺寸合适、打开/关闭快速、外观优雅、清晰度良好、全自动和智能、漂亮和高端、易于控制、适合客厅、舒适、声音清晰、方便、家庭影院必备。当来自终身学习的产品标签可用于产品的评论描述时,功能模块334被配置为将该标签添加为评论标签,并将该评论标签与具有该评论标签的评论链接。因此,当顾客点击评论标签时,具有该标签的评论将显示给顾客。在某些实施例中,学习的标签可以是,例如,“全自动和智能”、“漂亮和高端”以及“家庭影院必备”
在某些实施例中,功能是为产品提供短标题,以便顾客可以从标题中看到产品的重要特征。如图5C所示,在产品页面500C中,为不同商品提供短标题,并且短标题包括产品的重要特征的标签。例如,短标题可以是用于微波炉的“美的快速微波炉”、用于鞋的“耐克回弹缓震AJ1篮球鞋”、用于夹克的“探路者防水多口袋…”。当来自终身学习的产品标签可用于产品描述时,功能模块334被配置为从商品描述中提取标签,将该标签添加到商品的短标题中,并在其主页或搜索结果中显示商品的短标题和图像。在某些实施例中,功能模块334被配置为添加具有高置信度得分的商品的标签。在某些实施例中,功能模块334被配置为从几个标签类型中的每一个中选择一个高置信度得分标签。因此,当顾客查看商品的主页时,短标题将向顾客提供最重要的信息。在某些实施例中,所添加的标签可以包括图5C所示的“快速”和“回弹缓震”。
用户接口336被配置为在计算设备310中提供用户接口或图形用户接口。在某些实施例中,系统的用户或管理员能够使用接口336配置计算设备310的参数,特别是终身标签学习应用程序318中使用的参数。参数可以包括何时以及如何输入新产品和新产品描述、何时停止终身学习、学习的不同迭代中的阈值、以及何时执行功能。
图6示意性地示出了根据本公开的某些实施例的用于终身标签学习的方法。在某些实施例中,如图6所示的方法600可以在如图3所示的计算设备310上实现。应该特别注意的是,除非在本公开中另有说明,否则该方法的步骤可以以不同的顺序排列,并且因此不限于如图6所示的顺序。
在步骤602,数据启始模块320准备初始数据集。初始数据集包括许多产品,每个产品都有许多产品描述,还提供了一些产品的标签,这些标签来自相应的产品描述。这些标签被称为种子标签。
在步骤604中,训练模块322使用初始数据集训练NER模型324,并在NER模型324训练好时通知伪标签生成模块326。在某些实施例中,使用种子标签、种子标签所指的对应产品以及包含种子标签的产品描述来执行NER模型324的训练。
在步骤606,响应于从训练模块322接收到NER模型324训练好的信息,伪标签生成模块326指示NER模型324使用初始数据集进行预测,并且在预测之后,NER模型324将标记的句子发送到伪标签生成模块326。每个标记的句子都包括句子中的每个词或字符的标记。当句子是英语时,标记是针对词的,而当句子是汉语时,标记则是针对字符的。句子中的一些词被标记为“O”,这意味着NER模型324不能预测词或字符的有意义的标记。之后,伪标签生成模块326从标记的句子中提取词或字符的标签,并将标签发送到伪标签评分和排名模块328。词或字符的标签被命名为伪标签。
在步骤608,在接收到伪标签时,伪标签评分和排名模块328计算每个伪标签的置信度得分,可选地基于置信度得分对伪标签进行排名,并将伪标签、其置信度得分和(可选的)排名发送到伪标签过滤模块330。在某些实施例中,置信度得分是伪标签在产品的句子中的出现次数。例如,对于T恤产品,可能有1000个产品描述句子,并且在1000个产品说明句子中的两个句子中识别出一个伪标签,则伪标签的置信度得分为2。
在步骤610,在接收到伪标签、伪标签的置信度得分以及可选的排名时,伪标签过滤模块330将置信度得分与预定阈值进行比较,将置信度得分高于预定阈值的伪标签确定为真标签,并将真标签发送到数据增强模块332。在某些实施例中,品牌标签的阈值是2,而顾客感受的阈值是10。
在步骤612,在接收到真标签时,数据增强模块332将真标签添加到当前标签以获得更新的标签,并准备更新的数据集。更新后的数据集包括产品、产品描述和更新后的标签。
在步骤614,训练模块322使用更新的数据集来训练NER模型324;在重新训练之后,NER模块324和伪标签生成模块326生成新的伪标签;伪标签评分和排名模块328计算每个新伪标签的置信度得分;伪标签过滤模块330将置信度得分与相应的阈值进行比较,以获得新的真标签;并且数据增强模块332通过添加新的真标签来准备更新的数据集。因此,可以通过标签的终身更新来迭代地执行上述过程。
在某些实施例中,可以将具有或不具有标签的新产品和新产品描述添加到增强数据集,使得可以更新新产品的标签。
在某些实施例中,不同轮的迭代可以使用不同的阈值,其中在后的迭代可以比在先的迭代使用更高的阈值。
在某些实施例中,当在最近的迭代中没有或可以获得几个真标签时,或者当获得产品的预定数量的标签时,也可以停止迭代。
在步骤616,在上述过程的迭代期间,或者当迭代由于达到预定标准而停止时,功能模块334执行功能。在某些实施例中,该功能是搜索,功能模块334检索当前标签,将当前标签作为搜索项添加到搜索功能的搜索引擎,并且当标签被用作输入的搜索项时,提供相应的产品和产品描述作为搜索结果。因为标签更新是迭代执行的,所以功能模块334可以以预定的时间间隔更新搜索项,使得可以将新发现的产品的真标签连续添加到搜索项中。
在某些实施例中,该功能是为顾客评论提供标签。终身标签学习应用程序318使用产品评论作为产品描述,从产品评论中挖掘新标签,并且功能模块334添加新标签作为顾客评论标签。顾客评论标签链接到包含该顾客评论标签的顾客评论,这样顾客就可以很容易地看到具有相同顾客评论标签的多个评论。例如,如果产品是家庭影院,顾客评论标签是“家庭影院必备”,则通过点击标签“家庭影院必备”,顾客可以查看所有相关评论,以便了解使产品成为“必备”的家庭影院产品的特定功能。
在某些实施例中,该功能是为商品提供短标题。功能模块334可以检索产品的重要标签,使用这些标签来创建产品类别中的商品的短标题。
如上所述,标签的迭代更新是自动执行的。在某些实施例中,功能模块334的功能也是自动执行的,以使得电子商务平台提供的某些应用,例如搜索、评论分组和短标题创建,可以自动实现。
图7示意性地示出了根据本公开的某些实施例的可扩展标签学习算法的伪代码。如图7所示,算法的输入包括具有种子标签的旧产品类别和不具有标签的新产品类别(第2~6行)。对旧产品和新产品都执行终身标签学习(第10~11行)。根据第15~33行执行标签学习的迭代,如果满足某些标准,也可以停止迭代(第35行)。图7所示的算法可以像滚雪球一样增加旧类别产品的标签数量;对于新类别的产品,它可以在没有种子(引导)标签和人参与的情况下学习标签,因为知识可以从旧产品转移到新产品。
为了保证标签学习的精度,如第27行所示,本公开计算每个伪标签p的置信度得分,称为Conf(p)。如果Conf(p)高于阈值t,则伪标签p可以被提升为真标签,并且可以被进一步添加到种子(引导)标签集合中。本公开可以使用伪标签p在产品描述集合中的出现频率,出现频率p越高,作为真标签的置信度就越高。每种类型的标签的标签提升阈值可以是不同的并且是动态的。例如,如果标签是产品品牌或产品行业属性,这种类型的标签通常是专有名词,阈值可以设置为2这样的较低的整数,因为我们确信,一旦该伪标签出现在产品描述文本中,它就应该是真标签。如果标签是人对产品的感受,这种类型的标签通常是形容词,则阈值可以设置为较高的整数,如10,因为只有在产品描述文本中多次重复出现该伪标签时,我们才能确信其是真标签。
为了保证标签学习的召回率,该算法以永不停息的学习方式学习标签。除非没有学习新的标签,或者标签满足业务需求,否则它永远不会结束。否则,旧产品的标签学习过程会一直持续下去(新产品在第一次学习过程后会变成旧产品),学习过程就像雪球一样,它可以尽可能多地学习有意义的标签。
在另一方面,本公开涉及一种存储计算机可执行代码的非瞬时计算机可读介质。该代码,当在计算设备的处理器处执行时,可以执行如上所述的方法。在某些实施例中,非瞬时计算机可读介质可以包括但不限于任何物理或虚拟存储介质。在某些实施例中,非瞬时计算机可读介质可以实现为如图3所示的计算设备310的存储设备316。
示出了使用京东的几个产品项目进行标签学习的初步实验结果。图8示出了旧产品(例如,服装、大家电)的结果。V0列是引导标签的初始数量,其中1011个标签由产品专家定义。V1、V2、V3、V4和V5示出了终身学习系统在第一次、第二次、第三次、第四次和第五次迭代中学习的新的有意义标签的数量,分别为47个、76个、74个、85个和65个。
图9示出了新产品(化妆品和家具)的结果。如V0列所示,没有新产品的初始引导标签。我们用使用在先的“旧”产品数据集从终身标签学习系统中优化了几次的模型,并为这些新产品项目生成标签,列V1示出了终身学习的第一次迭代学习的有意义标签的数量。结果表明,终身标签学习系统可以在没有任何产品专家参与的情况下学习新产品的标签。旧产品中的一些标签实际上可以从训练好的模型转移到新产品中。
总之,本公开的某些实施例尤其具有以下优点。(1)所公开的方法是一种不需要人为干扰的自动终身学习方法,终身学习不仅可以增加旧产品的标签数量,还可以从一开始就没有标签的新产品中学习标签。通过这种设计,实现了标签学习的可扩展性。(2)本公开的终身学习特征还确保了标签的高召回率,并且即使对于具有新兴新术语的产品描述的新趋势,本公开也可以将新兴新术语确定为标签。(3)通过计算伪标签的置信度得分并将置信度得分与阈值进行比较来保证标签的精度。只有置信度得分等于或大于阈值的伪标签被确定为真标签。(4)中文词是由汉字组成的,将句子中的字符分割成词是很有挑战性的。BERT+BiLSTM+CRF分层模型是一种适用于汉语处理的新型模型结构,解决了中文的分词和多义问题。此外,本公开有利于解决中文NER中的问题,并且也适用于英语和其他语言。通过上述特征,本公开实现了高精度、高召回率和可扩展的标签学习。
仅出于说明和描述的目的而提供了对本公开的示例性实施例的前述描述,其并不旨在穷举或将本公开限制为所公开的精确形式。根据上述教导,可以进行许多修改和变化。
选择实施例并进行描述是为了解释本公开的原理及其实际应用,从而使本领域的其他技术人员能够利用本公开和各实施例,并进行适合于预期的特定用途的各种修改。在不脱离本公开的精神和范围的情况下,替代实施例对于本公开所属领域的技术人员将变得显而易见。因此,本公开的范围由所附权利要求定义,而非前述描述和其中描述的示例性实施例。
参考文献(其全部内容通过引用一并于此):
1.Jacob Devlin,Ming-Wei Chang,Kenton Lee,and Kristina Toutanova,BERT:Pre-training of deep bidirectional transformers for language understanding,2018,arXiv:1810.04805.
2.Bidirectional recurrent neural networks,Wikipedia,https://en.wikipedia.org/wiki/Bidirectional_recurrent_neural_networks.
3.Long short-term memory,Wikipedia,https://en.wikipedia.org/wiki/Long_short-term__memory.
4.Conditional random field,Wikipedia,https://en.wikipedia.org/wiki/Conditional_random_field.
5.Guillaume Lample,Miguel Ballesteros,Sandeep Subramanian,KazuyaKawakami,and Chris Dyer,Neural architectures for named entity recognition,Proceedings of NAACL-HLT 2016,2016,260-270.
6.Ruixue Ding,Pengjun Xie,Xiaoyan Zhang,Wei Lu,Linlin Li,and Si Luo,Aneural multi-digraph model for Chinese NER with gazetteers,Proceedings of the57th Annual Meeting of the ASSociation for Computational Linguistics,2019,1462-1467.
7.Pengfei Cao,Yubo Chen,Kang Liu,Jun Zhao,and Shengping Liu,Adversarial trahsfer learning for Chinese named entity recognition with self-attention mechanism,Proceedings of the 2018Conference on Empirical Methods inNatural Language Processing,2018,182-192.
8.Yuying Zhu,and Guoxin Wang,CAN-NER:Convolutional attention networkfor Chinese named entity recognition,Proceedings of NAACL-HLT 2019,2019,3384-3393.
9.Emma Strubell,Patrick Verga,David Belanger,and Andrew McCallum,Fastand accurate entity recognition with iterated dilated convolutions,Proceedings of the 2017Conference on Empirical Methods in Natural LanguageProcessing,2017,2670-2680.

Claims (20)

1.一种系统,包括计算设备,其中,所述计算设备包括处理器和存储有计算机可执行代码的存储设备,并且当在所述处理器处执行时,所述计算机可执行码被配置为:
检索产品的产品描述并提供多个种子标签,其中,所述产品描述包括与所述种子标签相同的文本,所述种子标签表征所述产品中的至少一个产品;
使用所述产品描述和所述种子标签来训练命名实体识别NER模型;
使用所述NER模型从所述产品描述中预测多个伪标签;
计算所述多个伪标签的置信度得分;
将每个置信度得分与阈值进行比较,当所述多个伪标签中的一个伪标签的置信度得分大于所述阈值时,将所述伪标签定义为真标签;
将所述真标签添加到所述种子标签以获得更新的标签;以及
使用所述产品描述和所述更新的标签重复训练、预测、计算、比较和添加的步骤,以保持对所述更新的标签的更新。
2.根据权利要求1所述的系统,其中,所述NER模型包括来自变换器的双向编码器表示BERT层、双向长短期记忆BiLSTM层和条件随机场CRF层。
3.根据权利要求1所述的系统,其中,所述多个伪标签中的每个伪标签的置信度得分是从所述产品描述中检测到的所述伪标签的数量。
4.根据权利要求1所述的系统,其中,所述标签具有不同的类型,并且所述标签的类型包括指示所述产品的品牌的品牌标签、指示所述产品的重要物理特征的行业属性标签、指示所述产品的功能的功能标签、指示所述产品的风格的风格标签、指示顾客对所述产品的印象的感受标签、指示适于使用产品的场景的场景标签、以及指示产品的目标顾客的受众标签,所述品牌标签的阈值是2~3,所述行业属性标签、所述风格标签、所述受众标签和所述场景标签的阈值为5~20,以及所述感受标签的阈值为10~50。
5.根据权利要求4所述的系统,其中,在重复训练、预测、计算、比较和添加的步骤的不同轮次期间增加所述标签的阈值数值。
6.根据权利要求1所述的系统,其中,所述NER模型被配置为为所述产品描述的每个字符提供标记,所述标记包括品牌的开始Bbra、品牌的中间Mbra、品牌的结束Ebra、产品行业属性的开始Batt、产品行业属性的中间Matt、产品行业属性的结束Eatt、功能的开始Bfun、功能的中间Mfun、功能的结束Efun、风格的开始Bsty、风格的中间Msty、风格的结束Esty、感受的开始Bfel、感受的中间Mfel、感受的结束Efel、场景的开始Bsce、场景的中间Msce、场景的结束Esce、受众人的开始Bhum、受众人的中间Mhum、受众人的结束Ehum、以及无标记O,所述标记用来生成所述标签。
7.根据权利要求6所述的系统,其中,所述CRF层被配置为通过最大化句子标记得分来学习标记之间的限制,所述多个句子预测中的每个句子预测的句子标记得分通过以下方式计算:
Figure FDA0004223739810000021
其中,X是所述文档之一并且包括n个词x1,x2,...,xn,Y是所述文档之一的预测标记序列并且包括y1,y2,...,yn
Figure FDA0004223739810000023
是表示从标记yi到标记yi+1的转换的转换得分矩阵且对应于相邻标记之间的限制,/>
Figure FDA0004223739810000024
是所述文档中的第i词具有标签yi的可能性。
8.根据权利要求7所述的系统,其中,所述多个句子预测中的每个句子预测的句子标记得分通过以下方式被归一化:
Figure FDA0004223739810000022
其中,p(y|X)是文档X相对于标签y的归一化可能性,
Figure FDA0004223739810000025
是所述文档的预测标签中的任一个。
9.根据权利要求1所述的系统,其中,所述计算机可执行代码还被配置为:提供所述更新的标签作为相应产品的关键词,以使得用户可以使用所述关键词,通过搜索引擎找到相应产品。
10.根据权利要求1所述的系统,其中,所述计算机可执行代码还被配置为:提供所述更新的标签作为相应产品的关键词,并在相应产品的主页上显示所述关键词作为评论标签或标题词。
11.一种方法,包括:
由计算设备检索产品的产品描述,并由计算设备提供多个种子标签,其中,所述产品描述包括与所述种子标签相同的文本,所述种子标签表征所述产品中的至少一个产品;
由所述计算设备使用所述产品描述和所述种子标签来训练命名实体识别NER模型;
由所述计算设备使用所述NER模型从所述产品描述中预测多个伪标签;
由所述计算设备计算所述多个伪标签的置信度得分;
由所述计算设备将每个置信度得分与阈值进行比较,当所述多个伪标签中的一个伪标签的置信度得分大于所述阈值时,将所述伪标签定义为真标签;
由所述计算设备将所述真标签添加到所述种子标签以获得更新的标签;以及
由所述计算设备使用所述产品描述和所述更新的标签重复训练、预测、计算、比较和添加的步骤,以保持对所述更新的标签的更新。
12.根据权利要求11所述的方法,其中,所述NER模型包括来自变换器的双向编码器表示BERT层、双向长短期记忆BiLSTM层和条件随机场CRF层。
13.根据权利要求11所述的方法,其中,所述多个伪标签中的每个伪标签的置信度得分是从所述产品描述中检测到的所述伪标签的数量。
14.根据权利要求11所述的方法,其中,所述标签具有不同的类型,并且所述标签的类型包括指示所述产品的品牌的品牌标签、指示所述产品的重要物理特征的行业属性标签、指示所述产品的功能的功能标签、指示所述产品的风格的风格标签、指示顾客对所述产品的印象的感受标签、指示适于使用产品的场景的场景标签、以及指示产品的目标顾客的受众标签,所述品牌标签的阈值是2~3,所述行业属性标签、所述风格标签、所述受众标签和所述场景标签的阈值为5~20,以及所述感受标签的阈值为10~50。
15.根据权利要求11所述的方法,其中,所述NER模型被配置为为所述产品描述的每个字符提供标记,所述标记包括品牌的开始Bbra、品牌的中间Mbra、品牌的结束Ebra、产品行业属性的开始Batt、产品行业属性的中间Matt、产品行业属性的结束Eatt、功能的开始Bfun、功能的中间Mfun、功能的结束Efun、风格的开始Bsty、风格的中间Msty、风格的结束Esty、感受的开始Bfel、感受的中间Mfel、感受的结束Efel、场景的开始Bsce、场景的中间Msce、场景的结束Esce、受众人的开始Bhum、受众人的中间Mhum、受众人的结束Ehum、以及无标记O,所述标记用来生成所述标签。
16.根据权利要求15所述的方法,其中,所述CRF层被配置为通过最大化句子标记得分来学习标记之间的限制,所述多个句子预测中的每个句子预测的句子标记得分通过以下方式计算:
Figure FDA0004223739810000041
其中,X是所述文档之一并且包括n个词x1,x2,...,xn,Y是所述文档之一的预测标记序列并且包括y1,y2,...,yn
Figure FDA0004223739810000043
是表示从标记yi到标记yi+1的转换的转换得分矩阵且对应于相邻标记之间的限制,/>
Figure FDA0004223739810000044
是所述文档中的第i词具有标签yi的可能性。
17.根据权利要求16所述的系统,其中,所述多个句子预测中的每个句子预测的句子标记得分通过以下方式被归一化:
Figure FDA0004223739810000042
其中,p(y|X)是文档X相对于标签y的归一化可能性,
Figure FDA0004223739810000045
是所述文档的预测标签中的任一个。
18.根据权利要求11所述的方法,还包括:
提供所述更新的标签作为相应产品的关键词,以使得用户可以使用所述关键词,通过搜索引擎找到相应产品;或者
提供所述更新的标签作为相应产品的关键词,并在相应产品的主页上显示所述关键词作为评论标签或标题词。
19.一种存储有计算机可执行代码的非瞬时计算机可读介质,其中,当在计算设备的处理器处执行时,所述计算机可读代码被配置为:
检索产品的产品描述和多个种子标签,其中,所述产品描述包括与所述种子标签相同的文本,所述种子标签表征所述产品中的至少一个产品;
使用所述产品描述和所述种子标签来训练命名实体识别NER模型;
使用所述NER模型从所述产品描述中预测多个伪标签;
计算所述多个伪标签的置信度得分;
将每个置信度得分与阈值进行比较,当所述多个伪标签中的一个伪标签的置信度得分大于所述阈值时,将所述伪标签定义为真标签;
将所述真标签添加到所述种子标签以获得更新的标签;以及
使用所述产品描述和所述更新的标签重复训练、预测、计算、比较和添加的步骤,以保持对所述更新的标签的更新。
20.根据权利要求19所述的非瞬时计算机可读介质,其中,所述NER模型包括来自变换器的双向编码器表示BERT层、双向长短期记忆BiLSTM层和条件随机场CRF层。
CN202180076286.XA 2020-11-30 2021-10-27 通过终身学习的电子商务中可扩展标签学习的系统和方法 Pending CN116438538A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/107,472 US11710168B2 (en) 2020-11-30 2020-11-30 System and method for scalable tag learning in e-commerce via lifelong learning
US17/107,472 2020-11-30
PCT/CN2021/126560 WO2022111192A1 (en) 2020-11-30 2021-10-27 System and method for scalable tag learning in e-commerce via lifelong learning

Publications (1)

Publication Number Publication Date
CN116438538A true CN116438538A (zh) 2023-07-14

Family

ID=81751439

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180076286.XA Pending CN116438538A (zh) 2020-11-30 2021-10-27 通过终身学习的电子商务中可扩展标签学习的系统和方法

Country Status (3)

Country Link
US (1) US11710168B2 (zh)
CN (1) CN116438538A (zh)
WO (1) WO2022111192A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11537918B2 (en) * 2020-07-21 2022-12-27 Florida Power & Light Company Systems and methods for document similarity matching

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009059297A1 (en) * 2007-11-01 2009-05-07 Textdigger, Inc. Method and apparatus for automated tag generation for digital content
US9767409B1 (en) * 2015-03-30 2017-09-19 Amazon Technologies, Inc. Latent feature based tag routing
US20170011077A1 (en) * 2015-07-07 2017-01-12 Socrata, Inc. Scalable annotation architecture
US10635751B1 (en) * 2019-05-23 2020-04-28 Capital One Services, Llc Training systems for pseudo labeling natural language
US11354506B2 (en) * 2019-07-30 2022-06-07 Baidu Usa Llc Coreference-aware representation learning for neural named entity recognition
JP7303377B2 (ja) * 2019-09-20 2023-07-04 グーグル エルエルシー ラベルノイズが存在する状態でのロバストな訓練
WO2021150676A1 (en) * 2020-01-21 2021-07-29 Ancestry.Com Operations Inc. Joint extraction of named entities and relations from text using machine learning models
CN112148877B (zh) 2020-09-23 2023-07-04 网易(杭州)网络有限公司 语料文本的处理方法、装置及电子设备

Also Published As

Publication number Publication date
US20220172269A1 (en) 2022-06-02
US11710168B2 (en) 2023-07-25
WO2022111192A1 (en) 2022-06-02

Similar Documents

Publication Publication Date Title
US11995564B2 (en) System and method for generating aspect-enhanced explainable description-based recommendations
Liu et al. Fashion landmark detection in the wild
He et al. An unsupervised neural attention model for aspect extraction
CN110363213B (zh) 服装图像的认知分析和分类的方法和系统
US10810260B2 (en) System and method for automatically generating articles of a product
Baral et al. Reel: Review aware explanation of location recommendation
CN111444372B (zh) 用于图像处理的系统和方法
CN107609888B (zh) 用于查询和投标词之间的点击率预测的系统和方法
US10678769B2 (en) Artificial intelligence system and method for auto-naming customer tree nodes in a data structure
US11935106B2 (en) System and method for product recommendation based on multimodal fashion knowledge graph
US11574351B2 (en) System and method for quality assessment of product description
CN111598596A (zh) 数据处理方法、装置、电子设备及存储介质
Demchuk et al. Commercial Content Distribution System Based on Neural Network and Machine Learning.
CN116976920A (zh) 商品导购方法及其装置、设备、介质
Chun et al. A novel clothing attribute representation network-based self-attention mechanism
Najafabadi et al. Tag recommendation model using feature learning via word embedding
Guadarrama et al. Understanding object descriptions in robotics by open-vocabulary object retrieval and detection
CN110826321A (zh) 合同文件风险校验方法、装置、计算机设备以及存储介质
CN116438538A (zh) 通过终身学习的电子商务中可扩展标签学习的系统和方法
Dehghan et al. An improvement in the quality of expert finding in community question answering networks
KR20200140588A (ko) 이미지 기반 제품 매매 서비스 제공 시스템 및 방법
Fu et al. Convolutional deep neural networks for document-based question answering
Xiao et al. Research and implementation of hybrid recommendation algorithm based on collaborative filtering and word2vec
Cherednichenko et al. Item Matching Model in E-Commerce: How Users Benefit
Li et al. Inferring user profiles in online social networks based on convolutional neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination