CN112434493A - 一种文案生成方法、装置、电子设备和存储介质 - Google Patents

一种文案生成方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN112434493A
CN112434493A CN202011219419.8A CN202011219419A CN112434493A CN 112434493 A CN112434493 A CN 112434493A CN 202011219419 A CN202011219419 A CN 202011219419A CN 112434493 A CN112434493 A CN 112434493A
Authority
CN
China
Prior art keywords
commodity
attribute data
file
candidate
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011219419.8A
Other languages
English (en)
Inventor
徐亮
王欣
赫阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Wodong Tianjun Information Technology Co Ltd
Priority to CN202011219419.8A priority Critical patent/CN112434493A/zh
Publication of CN112434493A publication Critical patent/CN112434493A/zh
Priority to US18/251,055 priority patent/US20230385535A1/en
Priority to PCT/CN2021/127421 priority patent/WO2022095798A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • G06Q30/0625Directed, with specific intent or strategy
    • G06Q30/0627Directed, with specific intent or strategy using item specifications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Probability & Statistics with Applications (AREA)
  • Accounting & Taxation (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提出了一种文案生成方法、装置、电子设备和计算机存储介质,该方法包括:获取商品的第一属性数据;基于预先训练的第一文案生成模型,确定所述商品的第一关键属性数据;所述第一关键属性数据表示第一属性数据中的部分属性数据;根据所述第一关键属性数据,得到所述商品的第一候选文案集;所述第一候选文案集表示至少一个商品文案的集合;按照质量判定规则对所述候选文案数据进行筛选,确定目标商品文案;所述候选文案数据包括所述第一候选文案集中的商品文案。

Description

一种文案生成方法、装置、电子设备和存储介质
技术领域
本申请涉及文案描述技术领域,尤其涉及一种文案生成方法、装置、电子设备和计算机存储介质。
背景技术
伴随着移动互联网的发展,电子商务行业得到了迅猛发展。越来越多的用户习惯在网络上购物,由于移动互联网的普及,用户用于网上浏览商品的时间在不断增加,为了能够吸引用户,对于电商的内容化提出了更高的要求。电商平台以及卖家为了吸引用户,除了商品标题外,还会为商品提供长文案描述,对商品的卖点进行描述,让用户能够快速深入的了解商品的特性。高质量的商品描述是提升客户体验的关键,准确和有吸引力的描述不仅能够帮助客户做出正式的决定而且能提升购买的可能性。
相关技术中,要写出高质量的文案,对于撰写文案的人员就有比较高的要求,不仅所需成本较高,而且由人工撰写文案的效率较低,不能快速覆盖大量商品;此外,对已生成的商品长文案缺乏准确的度量方式,很难确保商品长文案的质量以及与商品之间的契合度。
发明内容
本申请提供一种文案生成方法、装置、电子设备和计算机存储介质。
本申请的技术方案是这样实现的:
本申请实施例提供了一种文案生成方法,所述方法包括:
获取商品的第一属性数据;
基于预先训练的第一文案生成模型,确定所述商品的第一关键属性数据;所述第一关键属性数据表示第一属性数据中的部分属性数据;
根据所述第一关键属性数据,得到所述商品的第一候选文案集;所述第一候选文案集表示至少一个商品文案的集合;
按照质量判定规则对所述候选文案数据进行筛选,确定目标商品文案;所述候选文案数据包括所述第一候选文案集中的商品文案。
在一些实施例中,所述根据所述第一关键属性数据,得到所述商品的第一候选文案集,包括:
根据所述第一关键属性数据,逐句生成针对所述第一关键属性数据的文案描述;所述每个第一关键属性数据对应至少一句文案描述;
将所述每个第一关键属性数据对应的文案描述进行拼接,生成至少一个商品文案;
基于所述至少一个商品文案,得到所述商品的第一候选文案集。
在一些实施例中,所述基于所述至少一个商品文案,得到所述商品的第一候选文案集,包括:
对所述每个商品文案的重复度和/或一致性进行判断,得到判断结果;所述重复度表示所述每个商品文案中不同文案描述之间的重复程度;所述一致性表示所述每个商品文案的属性数据与所述第一属性数据之间的一致程度;
根据所述判断结果,得到所述商品的第一候选文案集。
在一些实施例中,所述第一文案生成模型是通过以下步骤训练得到的:
获取商品的历史文案以及第二属性数据;
将所述第二属性数据与所述历史文案进行匹配,得到第二关键属性数据;
将所述历史文案、所述第二属性数据以及所述第二关键属性数据作为训练数据;
通过所述训练数据训练所述第一文案生成模型,得到训练完成的所述第一文案生成模型。
在一些实施例中,所述第一文案生成模型包括:第一解码器和第二解码器,所述第一解码器用于对所述第二属性数据进行解码,得到所述第二关键属性数据;所述第二解码器用于生成所述第二关键属性数据对应的文案描述。
在一些实施例中,所述通过所述训练数据训练所述第一文案生成模型,得到训练完成的所述第一文案生成模型,包括:
使用双注意力机制对所述第一解码器的网络参数进行调整,并使用覆盖机制对所述第二解码器的网络参数进行调整,得到训练完成的所述第一文案生成模型。
在一些实施例中,所述按照质量判定规则对所述候选文案数据进行筛选,包括:
在获取商品的第一属性数据后,将所述第一属性数据输入到至少两种文案生成模型中,得到所述商品的第二候选文案集;所述至少两种文案生成模型包括所述第一文案生成模型;
按照质量判定规则对所述候选文案数据进行筛选;所述候选文案数据包括所述第二候选文案集中的商品文案。
在一些实施例中,所述质量判定规则包括以下至少之一:
基于重复度对所述商品文案的质量进行筛选;所述重复度表示所述每个商品文案中不同文案描述之间的重复程度;
基于一致性对所述商品文案的质量进行筛选;所述一致性表示所述每个商品文案的属性数据与所述第一属性数据之间的一致程度;
基于困惑度对所述商品文案的质量进行筛选;所述困惑度表示所述每个商品文案中文案描述的清晰程度;
基于属性覆盖度对所述商品文案的质量进行筛选;所述属性覆盖度表示所述第一属性数据在每个商品文案中的覆盖程度。
本申请实施例还提出了一种文案生成装置,所述装置包括获取模块、第一确定模块、第二确定模块和筛选模块,其中,
获取模块,用于获取商品的第一属性数据;
第一确定模块,用于基于预先训练的第一文案生成模型,确定所述商品的第一关键属性数据;所述第一关键属性数据表示第一属性数据中的部分属性数据;
第二确定模块,用于根据所述第一关键属性数据,得到所述商品的第一候选文案集;所述第一候选文案集表示至少一个商品文案的集合;
筛选模块,用于按照质量判定规则对所述候选文案数据进行筛选,确定目标商品文案;所述候选文案数据包括所述第一候选文案集中的商品文案。
本申请实施例提供一种电子设备,所述设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现前述一个或多个技术方案提供的文案生成方法。
本申请实施例提供一种计算机存储介质,所述计算机存储介质存储有计算机程序;所述计算机程序被执行后能够实现前述一个或多个技术方案提供的文案生成方法。
本申请实施例提出了一种文案生成方法、装置、电子设备和计算机存储介质,该方法包括:该方法包括:获取商品的第一属性数据;基于预先训练的第一文案生成模型,确定所述商品的第一关键属性数据;所述第一关键属性数据表示第一属性数据中的部分属性数据;根据所述第一关键属性数据,得到所述商品的第一候选文案集;所述第一候选文案集表示至少一个商品文案的集合;按照质量判定规则对所述候选文案数据进行筛选,确定目标商品文案;所述候选文案数据包括所述第一候选文案集中的商品文案。如此,无需由人工撰写商品文案,而是直接基于商品属性数据和预先训练的第一文案生成模型自动生成商品文案,能够提高文案生成效率;进一步地,按照质量判定规则对已生成的商品文案进行筛选,可以确保商品文案的质量以及与商品之间的契合度。
附图说明
图1是本申请实施例中的一种文案生成方法的流程示意图;
图2为本申请实施例中通过第一文案生成模型进行文案输出的结果示意图;
图3为本申请实施例的文案生成框架的结构示意图;
图4为本申请实施例的第一文案生成模型的结构示意图;
图5a为本申请实施例的一种文案生成装置的组成结构示意图;
图5b为本申请实施例的另一种文案生成装置的组成结构示意图;
图6为本申请实施例的电子设备的结构示意图。
具体实施方式
以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所提供的实施例仅仅用以解释本申请,并不用于限定本申请。另外,以下所提供的实施例是用于实施本申请的部分实施例,而非提供实施本申请的全部实施例,在不冲突的情况下,本申请实施例记载的技术方案可以任意组合的方式实施。
需要说明的是,在本申请实施例中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的方法或者装置不仅包括所明确记载的要素,而且还包括没有明确列出的其它要素,或者是还包括为实施方法或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括该要素的方法或者装置中还存在另外的相关要素(例如方法中的步骤或者装置中的单元,例如的单元可以是部分电路、部分处理器、部分程序或软件等等)。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,I和/或J,可以表示:单独存在I,同时存在I和J,单独存在J这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括I、J、R中的至少一种,可以表示包括从I、J和R构成的集合中选择的任意一个或多个元素。
例如,本申请实施例提供的文案生成方法包含了一系列的步骤,但是本申请实施例提供的文案生成方法不限于所记载的步骤,同样地,本申请实施例提供的文案生成设备包括了一系列模块,但是本申请实施例提供的文案生成设备不限于包括所明确记载的模块,还可以包括为获取相关时序数据、或基于时序数据进行处理时所需要设置的模块。
本申请实施例可以应用于终端设备和服务器组成的计算机系统中,并可以与众多其它通用或专用计算系统环境或配置一起操作。这里,终端设备可以是瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统,等等,服务器可以是服务器计算机系统小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
相关技术中,生成商品文案的主流方法主要有以下两种:一种是基于模板或统计的方法;此类方法通过预定义的规则和模板库以及从商品描述语料中提取的有效信息,通过预定义的规则生成商品文案;这种方法可解释,可控性强,但是建立规则的过程非常枯燥并且泛化性较差。另一种是基于端到端(End-to-End)的序列生成方法;此类方法应用神经网络方法学习端到端的模型以生成商品文案,较常用的是序列到序列(sequence-to-sequence,Seq2Seq)的编码-解码(Encoder-Decoder)方法,这种方法在自然语言生成中已经非常成功,包括神经机器生成和概括式摘要。
相关技术中,上述两种生成商品文案的方法存在以下缺点:
1)相关技术中,基于模板或统计的方法文案形式和扩展性受到很大限制。基于模板或统计的方法需要大量的人工工作扩展模板,短语表示和语篇结构也非常有限,并且随着数据的增加性能会趋近饱和,不能生成信息丰富的文案描述,扩展难度较大,泛化性较差。
2)相关技术中,端到端的文案生成模型仍然存在很多问题。问题主要集中在生成文案重复、与输入不一致等几个方面。
3)相关技术中,对于商品长文案生成任务,单纯依赖某个端到端的文案生成模型,其准确率和召回率仍然无法满足工业界的实际需要。
4)相关技术中,对已生成的商品文案缺乏准确的度量方式。针对模型生成的商品文案,还没有有效的方法判断商品文案的质量以及与商品的契合度。
针对上述技术问题,提出以下各实施例。
在本申请的一些实施例中,文案生成方法可以利用文案生成装置中的处理器实现,上述处理器可以为特定用途集成电路(Application Specific Integrated Circuit,ASIC)、数字信号处理器(Digital Signal Processor,DSP)、数字信号处理装置(DigitalSignal Processing Device,DSPD)、可编程逻辑装置(Programmable Logic Device,PLD)、现场可编程逻辑门阵列(Field Programmable Gate Array,FPGA)、中央处理器(CentralProcessing Unit,CPU)、控制器、微控制器、微处理器中的至少一种。
图1是本申请实施例中的一种文案生成方法的流程示意图,如图1所示,该方法包括如下步骤:
步骤100:获取商品的第一属性数据。
这里,商品可以表示电商平台或卖家通过互联网进行交易的任意类型的物品;例如,可以是服饰类物品、食品类物品等,还可以是虚拟物品等;本申请实施例对物品的类型不作限制。
本申请实施例中,第一属性数据可以包括商品的属性词和属性;属性词可以指描述商品特征的词语或词组,属性表示与该属性词对应的、且能够与其他属性词的属性形成区分的词;其中,第一属性数据中每个属性数据的数据形式为属性词|属性;例如,一字肩|领型、无袖|袖长、圆领|领型、拼接|流行元素。
在一些实施例中,第一属性数据的来源可以包括以下至少之一:商品标题、商品类目、商品扩展信息。
在一种实施方式中,可以通过对第一属性数据的来源进行分词和词性标注等一系列处理过程,获取到商品的第一属性数据。其中,上述处理过程可以通过序列标注模型进行实现;其实现的过程可以为:首先对输入的商品标题、商品类目或商品扩展信息进行分词处理,得到各个词序列;根据词序列的含义以及上下文内容对各个词序列进行序列标注;这里,各个词序列对应不同的属性词,序列标注的内容对应各个属性词的属性;进而,通过序列标注模型,可以获取到商品的第一属性数据。
在一些实施例中,分词是将连续的字序列按照一定的规范重新组合成词序列的过程,分词处理可以通过分词工具或分词算法进行实现;这里,可以根据实际应用场景进行设置,本发明实施例不作限制;例如,可以是pkuseg分词工具、结巴分词算法等。
在一些实施例中,词性标注可以被称为语法标注或词类消疑,词性标注可以将分词处理得到的词序列的词性按其含义和上下文内容进行标记的文本数据处理技术;其中,词性标注处理可以由人工或特定算法进行实现。
在一种实施方式中,在获取商品的第一属性数据之前,接收用户发送的针对商品的文案生成请求,该文案生成请求中可以包括用户输入的第一属性数据的来源。
在一种实施方式中,可以根据第一属性数据的来源,分别从商品标题、商品类目以及商品扩展信息中获取的扩展属性数据;再将三种不同来源的属性数据进行合并,得到商品的完整属性数据;根据预设规则对属性数据进行过滤处理,得到符合要求的属性数据,即,商品的第一属性数据。
在一种实施方式中,假设商品类目为:服饰内衣|一级类目、女装|二级类目、连衣裙|三级类目;商品标题为:XX品牌原创设计师女装夏装新款气质中长款不规则挂脖礼服裙子无袖一字肩白色连衣裙XL;对商品标题进行分词和词性标注的结果为:XX|品牌词、原创|风格属性、女装|副产品词、夏装|副产品词、新款|风格属性、气质|风格属性、中长款|样式属性、不规则|样式属性、挂脖|样式属性、礼服|副产品词、裙子|产品词、无袖|样式属性、一字肩|样式属性、白色|颜色属性、连衣裙|产品词、XL|尺码属性。
扩展属性数据:轻熟女|适用人群、涤纶|材质、街拍|风格、25-29周岁|适用年龄、2019年夏季|上市时间、中裙|裙长、拼接|流行元素、高腰|腰型;可以将上述三种不同来源的属性数据进行合并,得到商品的完整属性数据。
通过预设规则过滤后保留的属性数据:服饰内衣|一级类目、女装|二级类目、连衣裙|三级类目、一字肩|样式属性、轻熟女|适用人群、涤纶|材质、街拍|风格、中裙|裙长、拼接|流行元素、高腰|腰型、XX|品牌词、原创|风格属性、夏装|副产品词、气质|风格属性、中长款|样式属性、不规则|样式属性、挂脖|样式属性、礼服|副产品词、裙子|产品词、白色|颜色属性、连衣裙|产品词、圆领|领型。
在一种实施方式中,预设规则可以对商品的部分属性数据进行过滤;这是因为过滤的这部分属性数据对后续商品文案的生成作用不明显,通过进行这部分属性数据的过滤,可以在确保商品文案的准确性的同时提高商品文案的生成效率;这里,预设规则可以由人工基于商品特征制定。
步骤101:基于预先训练的第一文案生成模型,确定商品的第一关键属性数据;第一关键属性数据表示第一属性数据中的部分属性数据。
本申请实施例中,预先对第一文案生成模型进行训练,得到训练完成的第一文案生成模型;在进行文案生成时,将获取到的商品的第一属性数据作为第一文案生成模型的输入数据,第一文案生成模型的输出为商品对应的文案。
本申请实施例中,第一文案生成模型进行文案生成的过程主要包括内容选择和描述生成这两个阶段;其中,内容选择的结果是从商品的第一属性数据确定的第一关键属性数据;第一关键属性数据表示最终输出的文案中要重点描述的内容;描述生成的结果是针对第一关键属性数据生成对应的文案描述。
在一种实施方式中,将商品的第一属性数据“XX|品牌、女装|副产品词、夏装|副产品词、连衣裙|产品词、圆领|领型”输入到第一文案生成模型,如果第一文案生成模型确定商品的第一关键属性数据为“圆领|领型”;第一文案生成模型的输出可以为“衣领为典雅的圆领设计”。
在一些实施例中,第一文案生成模型是通过以下步骤训练得到的:获取商品的历史文案以及第二属性数据;将第二属性数据与历史文案进行匹配,得到第二关键属性数据;将历史文案、第二属性数据以及第二关键属性数据作为训练数据;通过训练数据训练第一文案生成模型,得到训练完成的第一文案生成模型。
在一种实施方式中,第一文案生成模型的训练过程为:将训练数据历史文案、第二属性数据以及第二关键属性数据输入到模型中,利用反向传播算法不断调整模型的网络参数,使得模型根据第二属性数据确定的关键属性数据与第二关键属性数据完全相同;并且根据第二关键属性数据生成的商品文案与历史文案尽可能一致。
在一种实施方式中,历史文案可以表示现有的针对商品进行描述的相关文案,其可以是人工撰写的文案,也可以是从商品文案语料中获取的文案;这里,为了提高商品文案的多样性,可以获取商品的多个历史文案;而多个历史文案的来源可以根据实际应用场景进行设置,本发明实施例不作限制。
本申请实施例中,通过第二属性数据与历史文案的匹配获取商品的第二关键属性数据,作为第一文案生成模型训练的中间数据。其中,商品的第二属性数据的获取与步骤100中第一属性数据的获取方式相同,这里不再累赘。
在一种实施方式中,假设商品的历史文案为“整体的设计为简约风尚,简明的线条勾勒不俗气质,显出知性干练的气质特点。衣领为典雅的圆领设计,简约中显出摩登风。腰部采用拼接设计而成,显出纤细腰肢,修饰美好身材线条”。通过第二属性数据与该历史文案的匹配获取的第二关键属性数据可以为:气质|风格属性、圆领|领型、拼接|流行元素。
在一些实施例中,第一文案生成模型包括:第一解码器和第二解码器,第一解码器用于对第二属性数据进行解码,得到第二关键属性数据;第二解码器用于生成第二关键属性数据对应的文案描述。
这里,第一文案生成模型可以为seq2seq模型,该模型可以包括:编码器、第一解码器和第二解码器;在第一文案生成模型的训练过程中,编码器的输入数据为“属性词|属性”对,对应商品的第二属性数据;采用长短期记忆网络(Long Short-Term Memory,LSTM)作为编码器,对输入数据进行编码,得到隐变量,如公式(1)所示:
hj=LSTM(hj-1,xj) (1)
公式(1)中,hj表示编码端j时刻的隐变量,hj-1表示编码端j-1时刻的隐变量,xj表示输入数据。
使用第一解码器对商品的第二属性数据进行解码,确定出商品的关键属性数据是否与第二关键属性数据对应;对商品的关键属性数据ki进行解码的过程如公式(2)、(3)、(4)所示:
hi=LSTM(hi-1,ki-1) (2)
Figure BDA0002761541480000111
Figure BDA0002761541480000112
其中,hi-1是前一时刻第二属性数据的隐状态。ki-1在训练阶段是当前时刻的第二关键属性数据,在预测阶段是前一时刻解码出的关键属性数据。hi是当前时刻第二关键属性数据的隐状态,ci是当前时刻编码端的注意力上下文向量,
Figure BDA0002761541480000113
是当前时刻生成的注意力数据的隐状态,g是一种变换函数。
接着,使用第二解码器解码生成与关键属性数据ki对应的商品文案y。
在一种实施方式中,第一文案生成模型采用联合训练的方式,同时完成第二关键属性数据的选择和商品文案的生成,该模型的目标函数采用最大似然同时考虑了两个阶段的目标,联合目标函数如公式(5)所示:
max∑Dlog(k|x)+logp(y|x,k) (5)
其中,x,k,y分别指商品的第二属性数据、商品的第二关键属性数据和商品文案,第一项表示第一解码器解码的目标,第二项表示第二解码器生成文案的目标。
可以看出,在第一文案生成模型训练阶段需要第二属性数据、第二关键属性数据和历史文案;第一文案生成模型预测阶段输入属性数据,输出是预测结果。
在一种实施方式中,第一文案生成模型预测阶段:输入属性数据,即过滤后保留的属性数据:服饰内衣|一级类目、女装|二级类目、连衣裙|三级类目、一字肩|样式属性、轻熟女|适用人群、涤纶|材质、街拍|风格、中裙|裙长、拼接|流行元素、高腰|腰型、XX|品牌词、原创|风格属性、夏装|副产品词、气质|风格属性、中长款|样式属性、不规则|样式属性、挂脖|样式属性、礼服|副产品词、裙子|产品词、白色|颜色属性、连衣裙|产品词、圆领|领型。
第一解码器解码出关键属性词:气质|风格属性、圆领|领型、拼接|流行元素。
第二解码器生成文案,即,预测结果:整体的设计为简约风尚,简明的线条勾勒不俗气质,显出知性干练的气质特点。衣领为典雅的圆领设计,简约中显出摩登风。腰部采用拼接设计而成,显出纤细腰肢,修饰美好身材线条。
在一些实施例中,通过训练数据训练第一文案生成模型,得到训练完成的第一文案生成模型,包括:使用双注意力机制对第一解码器的网络参数进行调整,并使用覆盖机制对第二解码器的网络参数进行调整,得到训练完成的第一文案生成模型。
本申请实施例中,在对第一文案生成模型训练的过程中,使用双注意力机制和覆盖机制进行网络优化;其中,双注意力机制针对输入数据是“属性词|属性”对这种“键向量|值向量”对的形式,在第一解码器的解码阶段采用双注意力机制分别对键向量和值向量均计算注意力数据,最终解码阶段采用的注意力数据分布是键向量和值向量各自注意力数据融合的结果;由于该方式可以同时利用键向量和值向量两部分的特征,能够提升第一文案生成模型规划的能力,提升文案的可靠性。如果将属性词注意力数据标记为αij(1),属性注意力数据标记为αij(2),则将属性词注意力数据和属性注意力数据融合后的注意力数据αij如公式(6)所示:
Figure BDA0002761541480000121
其中,J编码序列的长度,i是解码序列当前时刻的索引,j是编码序列当前时刻的索引。
在当前时刻编码端的注意力上下文向量ci如公式(7)所示:
Figure BDA0002761541480000131
由于文案生成模型的一个问题是容易生成重复性描述,包括字面上的重复和语意上的重复,出现这种问题的原因是模型对某一个输入特征数据进行重复描述。而使用覆盖机制能够抑制重复描述生成,核心思想为:在文案生成过程中跟踪已经描述的属性词,让第一文案生成模型不再关注已经描述过的属性词;进而,降低商品文案的重复性,提升文案的质量。
具体做法是,首先维护在历史状态下注意力上下文向量ci,将其作为特征输入计算当前时刻的属性词注意力数据αij(1)和属性注意力数据αij(2),如公式(8)所示:
Figure BDA0002761541480000132
其中,j’是编码序列不同时刻的索引,αij(2)的计算公式同αij(1),eij是衡量解码端当前时刻第二关键属性数据的隐状态hi和编码端j时刻的隐变量hj的关系所计算的权重。
对于重复出现过高权重的词,在loss函数中给予适当惩罚,如公式(9)所示:
covlossj=∑imin(αij,cij) (9)
其中,cij是将不同时刻编码端的注意力上下文向量累加后的结果。
步骤102:根据第一关键属性数据,得到商品的第一候选文案集;第一候选文案集表示至少一个商品文案的集合。
本申请实施例中,在得到第一关键属性数据后,第一文案生成模型可以根据第一关键属性数据,生成针对第一关键属性数据的文案描述;这里,每个关键属性数据对应生成的文案描述可以是一个,也可以多个。
在一种实施方式中,对于第一关键属性数据“圆领|领型”,第一文案生成模型对应生成的文案描述可以为“衣领为圆领设计”;也可以为“连衣裙的衣领为典雅的圆领设计”等。
在一些实施例中,根据第一关键属性数据,得到商品的第一候选文案集,可以包括:根据第一关键属性数据,逐句生成针对第一关键属性数据的文案描述;每个第一关键属性数据对应至少一句文案描述;将每个第一关键属性数据对应的文案描述进行拼接,生成至少一个商品文案;基于至少一个商品文案,得到商品的第一候选文案集。
在一种实施方式中,由于每个关键属性数据均可以生成对应的文案描述;因而,在第一关键属性数据包括多个属性数据的情况下,第一关键属性数据对应可以生成多种不同的文案描述。将多种不同的文案描述进行拼接,可以得到多种商品文案,进而,得到商品的第一候选文案集。
在一种实施方式中,假设第一关键属性数据包括:属性M和属性N;根据属性M可以生成文案描述1和文案描述2;根据属性N生成文案描述3;将描述1和文案描述3进行拼接、文案描述2和文案描述3进行拼接,则最终可以得到两种文案,将这两种文案作为第一候选文案集。
在一些实施例中,基于至少一个商品文案,得到商品的第一候选文案集,可以包括:对每个商品文案的重复度和/或一致性进行判断,得到判断结果;重复度表示每个商品文案中不同文案描述之间的重复程度;一致性表示每个商品文案的属性数据与第一属性数据之间的一致程度;根据判断结果,得到商品的第一候选文案集。
本申请实施例中,在对不同关键属性数据的文案描述进行拼接后,还可以对拼接后的各个商品文案的重复度和/或一致性进行判断;该过程主要在第一文案生成模型的束搜索阶段进行实现。
其中,重复度判断是对每个商品文案采用字面重复判断以及词向量的语意级别判断,即指有连续重复的字、词、子句以及语意上重复的子句。一致性判断是针对属性词做判断,判断每个商品文案的属性词与第一属性数据每个属性词之间的一致程度;即,生成的文案中是否包含输入数据中不存在的属性词;其中,属性词可以通过属性词表与生成的文案进行匹配获取,属性词表可以通过语料库统计得到。
在通过第一文案生成模型对商品文案进行预测的束搜索阶段,可以采用硬规则方式,对每个商品文案中不同文案描述之间的重复程度进行判断,得到判断结果,如果判断结果中表明生成的文案描述之间存在重复的字、词、子句或语意上重复的子句,则将该商品文案进行删除;也就是说,只有判断结果表明生成的商品文案中任意不同文案描述之间均不存在上述重复情况,才可将该商品文案进行输出。
进一步地,对每个商品文案的属性词与第一属性数据每个属性词之间的一致程度进行判断,得到判断结果;如果判断结果表明生成的商品文案中包含输入数据中不存在的属性词,则将该商品文案进行删除;也就是说,只有判断结果表明生成的商品文案中包含的属性词均与输入数据中的属性词对应,才可将该商品文案进行输出。
图2为本申请实施例中通过第一文案生成模型进行文案输出的结果示意图,如图2所示,商品属性是第一文案生成模型的输入数据,解码输出得到的商品文案是没有增加重复度和一致性判断的生成结果;可以看出,该生成结果中“高腰”与第一文案生成模型的输入数据不一致,并且“穿着更加的舒适”和“让你的穿着更加的舒适”之间重复。在增加了重复度和一致性判别后,将“高腰”替换成“中腰”,“让你的穿着更加的舒适”替换成“让你的时尚感倍增”;可见,通过增加重复度和一致性判别,能够对第一文案生成模型生成结果中的错误描述进行纠正,提高商品文案的质量。
步骤103:按照质量判定规则对候选文案数据进行筛选,确定目标商品文案;候选文案数据包括第一候选文案集中的商品文案。
本申请实施例中,在得到第一候选文案集后,基于质量判定规则对第一候选文案集中的商品文案进行筛选,确定最终输出的目标商品文案。
这里,质量判定规则包括以下至少之一:基于重复度对商品文案的质量进行筛选;重复度表示每个商品文案中不同文案描述之间的重复程度;基于一致性对商品文案的质量进行筛选;一致性表示每个商品文案的属性数据与第一属性数据之间的一致程度;基于困惑度对商品文案的质量进行筛选;困惑度表示每个商品文案中文案描述的清晰程度;基于属性覆盖度对商品文案的质量进行筛选;属性覆盖度表示第一属性数据在每个商品文案中的覆盖程度。
在一种实施方式中,可以基于重复度对第一候选文案集中的商品文案进行过滤;重复度包括字面上的重复和语意上的重复,其中,字面上的重复可以通过制定规则,判断每个商品文案中不同文案描述之间是否重复,例如相邻字词的重复,子句重复,属性词重复描述等。语意上的重复,通过训练word2vec词向量的方式,若发现相似词或相似子句,则判断商品文案之间存在重复问题。
在一种实施方式中,可以基于一致性对第一候选文案集中的商品文案进行过滤;由于保证输入数据和输出数据的一致性是对第一文案生成模型的基本要求,除了对模型优化生成一致的描述以外,为保证模型最终输出文案的属性数据与输入数据,即第一属性数据的一致程度,结合文案数据的特点,采用匹配属性词的方法判断最终输出文案的一致性,需要构建属性词表。基于属性词表,检测文案中描述属性词是否与输入数据的属性词存在冲突。其中,属性词表的构建,基于训练数据构建属性词表,构建中考虑属性词在文案中出现的频次和输入属性中出现频次的比例,同时考虑保留客观属性,例如材质属性,删除比较主观的属性,例如样式属性等。
在一种实施方式中,可以基于困惑度对第一候选文案集中的商品文案进行排序;第一文案模型生成的描述可能存在不通顺的情况,为了衡量生成文案的通顺度,采用语言模型中的困惑度指标度量文案,对文案进行排序,困惑度越高的文案一般情况下通顺性更差。基于已有的商品文案数据作为基础数据,统计二元模型下的概率,基于统计结果计算困惑度指标。基于困惑度指标计算当前商品所有候选文案的困惑度,并以此作为度量指标按照困惑度从低到高的顺序排序候选文案,取结果中候选文案排列在前的若干候选文案作为当前商品的新文案候选集。
在一种实施方式中,可以基于属性覆盖度对第一候选文案集中的商品文案进行排序;通过从多信息源如标题、扩展属性等获取的商品属性数据,经过过滤处理后,保留的属性数据作为文案生成模型的输入。生成的商品文案目标是对输入的属性做具体的描述,吸引用户的购买兴趣。可以根据生成文案中包含的输入属性词的个数,判断商品文案的质量,描述的输入属性词越多,该商品文案的评分越高,文案质量越好。
在一些实施例中,按照质量判定规则对候选文案数据进行筛选,可以包括:在获取商品的第一属性数据后,将第一属性数据输入到至少两种文案生成模型中,得到商品的第二候选文案集;至少两种文案生成模型包括第一文案生成模型;按照质量判定规则对候选文案数据进行筛选;候选文案数据包括第二候选文案集中的商品文案。
在文案生成的过程中,除了采用训练完成的第一文案生成模型外,还可以采用其他文案生成模型;即,本申请实施例能够兼容各种文案生成模型。
对于商品文案生成任务,不再单纯依赖某个端到端的文案生成模型,而是基于多种文案生成模型共同生成商品对应的文案,得到商品的第二候选文案集;再基于上述的质量判定规则对第二候选文案集的商品文案进行筛选,将符合要求的商品文案进行输出;可见,采用这种方式进行商品文案生成,其准确率和召回率可以满足工业界的实际需要。
可以看出,通过上述重复度、一致性、困惑度和属性覆盖度四个方面的质量判定规则对候选文案数据进行筛选,不仅可以过滤掉有问题的商品文案,还能保留高置信度和高覆盖度的文案作为最后的输出,确保商品文案的质量。
本申请实施例提出了一种文案生成方法、装置、电子设备和计算机存储介质,该方法包括:该方法包括:获取商品的第一属性数据;基于预先训练的第一文案生成模型,确定商品的第一关键属性数据;第一关键属性数据表示第一属性数据中的部分属性数据;根据第一关键属性数据,得到商品的第一候选文案集;第一候选文案集表示至少一个商品文案的集合;按照质量判定规则对候选文案数据进行筛选,确定目标商品文案;候选文案数据包括第一候选文案集中的商品文案。如此,无需通过人工撰写商品文案,而是基于商品属性信息和预先训练的第一文案生成模型生成商品文案,能够提高文案生成效率;进一步地,按照质量判定规则对已生成的商品文案进行筛选,可以确保商品文案的质量以及与商品之间的契合度。
为了能够更加体现本申请的目的,在本申请上述实施例的基础上,进行进一步的举例说明。
图3为本申请实施例的文案生成框架的结构示意图,如图3所示,该框架包括三个模块:商品信息过滤模块、文案生成模块和文案优选模块;其中,商品信息过滤模块用于从多源商品信息如商品标题、商品类目、商品扩展信息等获取商品的类目、品牌名、产品词,以及若干能准确反映商品特征的修饰词,从这些类目、品牌名、产品词以及修饰词中提取属性数据;属性数据包括属性词和属性,并对获取的属性数据进行过滤,提取出用于文案生成的商品属性信息,即,第一属性数据。
文案生成模块用于基于第一文案生成模型,对商品信息过滤模块输出的第一属性数据进行抽取、筛选,确定商品的第一关键属性数据;其中,双注意力机制、覆盖机制用于第一文案生成模型训练阶段,束搜索在模型第一文案生成模型预测阶段使用。采用第一文案生成模型生成若干候选文案,并对各个候选文案的重复度和/或一致性进行判断;重复度表示每个商品文案中不同文案描述之间的重复程度;一致性表示每个商品文案的属性数据与第一属性数据之间的一致程度;根据判断结果,得到优化后的各个候选文案,即,第一候选文案集。
文案优选模块用于基于重复度和一致性对第一候选文案集中的商品文案进行过滤,过滤掉有问题的商品文案,并基于困惑度和属性覆盖度对第一候选文案集中的商品文案进行排序,保留高置信度和高覆盖度的若干商品文案作为最后的输出,即目标商品文案。
图4为本申请实施例的第一文案生成模型的结构示意图,如图4所示,使用第一文案生成模型进行预测的处理流程为:将获取到的商品的第一属性数据“属性词|属性”,例如,“V领|领型”等,作为输入数据输入至编码器;采用双注意力机制对属性词和属性均计算注意力数据,并基于上下文向量将每个属性数据对应的属性词和属性的注意力数据进行融合,得到每个属性数据的注意力数据权重分布;使用第一解码器对这些属性数据进行解码,得到第一关键属性数据K1,使用第二解码器进行文案解码,得到每个关键属性数据对应的文案描述。
图5a为本申请实施例的一种文案生成装置的组成结构示意图,如图5a所示,装置包括:获取模块500、第一确定模块501、第二确定模块502和筛选模块503,其中:
获取模块500,用于获取商品的第一属性数据;
第一确定模块501,用于基于预先训练的第一文案生成模型,确定商品的第一关键属性数据;第一关键属性数据表示第一属性数据中的部分属性数据;
第二确定模块502,用于根据第一关键属性数据,得到商品的第一候选文案集;第一候选文案集表示至少一个商品文案的集合;
筛选模块503,用于按照质量判定规则对候选文案数据进行筛选,确定目标商品文案;候选文案数据包括第一候选文案集中的商品文案。
在一些实施例中,第二确定模块502,用于根据第一关键属性数据,得到商品的第一候选文案集,包括:
根据第一关键属性数据,逐句生成针对第一关键属性数据的文案描述;每个第一关键属性数据对应至少一句文案描述;
将每个第一关键属性数据对应的文案描述进行拼接,生成至少一个商品文案;
基于至少一个商品文案,得到商品的第一候选文案集。
在一些实施例中,第二确定模块502,用于基于至少一个商品文案,得到商品的第一候选文案集,包括:
对每个商品文案的重复度和/或一致性进行判断,得到判断结果;重复度表示每个商品文案中不同文案描述之间的重复程度;一致性表示每个商品文案的属性数据与第一属性数据之间的一致程度;
根据判断结果,得到商品的第一候选文案集。
图5b为本申请实施例的另一种文案生成装置的组成结构示意图,如图5b所示,装置还包括训练模块504,训练模块504,用于:
获取商品的历史文案以及第二属性数据;
将第二属性数据与历史文案进行匹配,得到第二关键属性数据;
将历史文案、第二属性数据以及第二关键属性数据作为训练数据;
通过训练数据训练第一文案生成模型,得到训练完成的第一文案生成模型。
在一些实施例中,第一文案生成模型包括:第一解码器和第二解码器,第一解码器用于对第二属性数据进行解码,得到第二关键属性数据;第二解码器用于生成第二关键属性数据对应的文案描述。
在一些实施例中,训练模块504,用于通过训练数据训练第一文案生成模型,得到训练完成的第一文案生成模型,包括:
使用双注意力机制对第一解码器的网络参数进行调整,并使用覆盖机制对第二解码器的网络参数进行调整,得到训练完成的第一文案生成模型。
在一些实施例中,筛选模块503,用于按照质量判定规则对候选文案数据进行筛选,包括:
在获取商品的第一属性数据后,将第一属性数据输入到至少两种文案生成模型中,得到商品的第二候选文案集;至少两种文案生成模型包括第一文案生成模型;
按照质量判定规则对候选文案数据进行筛选;候选文案数据包括第二候选文案集中的商品文案。
在一些实施例中,质量判定规则包括以下至少之一:
基于重复度对商品文案的质量进行筛选;重复度表示每个商品文案中不同文案描述之间的重复程度;
基于一致性对商品文案的质量进行筛选;一致性表示每个商品文案的属性数据与第一属性数据之间的一致程度;
基于困惑度对商品文案的质量进行筛选;困惑度表示每个商品文案中文案描述的清晰程度;
基于属性覆盖度对商品文案的质量进行筛选;属性覆盖度表示第一属性数据在每个商品文案中的覆盖程度。
在实际应用中,上述获取模块500、第一确定模块501、第二确定模块502、筛选模块503和训练模块504均可以由位于电子设备中的处理器实现,该处理器可以为ASIC、DSP、DSPD、PLD、FPGA、CPU、控制器、微控制器、微处理器中的至少一种。
另外,在本实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时,可以存储在一个计算机可读取存储介质中,基于这样的理解,本实施例的技术方案本质上或者说对相关技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)或processor(处理器)执行本实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
具体来讲,本实施例中的一种文案生成方法对应的计算机程序指令可以被存储在光盘、硬盘、U盘等存储介质上,当存储介质中的与一种文案生成方法对应的计算机程序指令被一电子设备读取或被执行时,实现前述实施例的任意一种文案生成方法。
基于前述实施例相同的技术构思,参见图6,其示出了本申请提供的电子设备600,可以包括:存储器601和处理器602;其中,
存储器601,用于存储计算机程序和数据;
处理器602,用于执行存储器中存储的计算机程序,以实现前述实施例的任意一种文案生成方法。
在实际应用中,上述存储器601可以是易失性存储器(volatile memory),例如RAM;或者非易失性存储器(non-volatile memory),例如ROM、快闪存储器(flash memory)、硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD);或者上述种类的存储器的组合,并向处理器602提供指令和数据。
上述处理器602可以为ASIC、DSP、DSPD、PLD、FPGA、CPU、控制器、微控制器、微处理器中的至少一种。可以理解地,对于不同的文案生成设备,用于实现上述处理器功能的电子器件还可以为其它,本申请实施例不作具体限定。
在一些实施例中,本申请实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述
本申请所提供的各方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
本申请所提供的各产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
本申请所提供的各方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程文案生成设备的处理器以产生一个机器,使得通过计算机或其他可编程文案生成设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可装载到计算机或其他可编程文案生成设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上,仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。

Claims (18)

1.一种文案生成方法,其特征在于,所述方法包括:
获取商品的第一属性数据;
基于预先训练的第一文案生成模型,确定所述商品的第一关键属性数据;所述第一关键属性数据表示第一属性数据中的部分属性数据;
根据所述第一关键属性数据,得到所述商品的第一候选文案集;所述第一候选文案集表示至少一个商品文案的集合;
按照质量判定规则对所述候选文案数据进行筛选,确定目标商品文案;所述候选文案数据包括所述第一候选文案集中的商品文案。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一关键属性数据,得到所述商品的第一候选文案集,包括:
根据所述第一关键属性数据,逐句生成针对所述第一关键属性数据的文案描述;所述每个第一关键属性数据对应至少一句文案描述;
将所述每个第一关键属性数据对应的文案描述进行拼接,生成至少一个商品文案;
基于所述至少一个商品文案,得到所述商品的第一候选文案集。
3.根据权利要求2所述的方法,其特征在于,所述基于所述至少一个商品文案,得到所述商品的第一候选文案集,包括:
对所述每个商品文案的重复度和/或一致性进行判断,得到判断结果;所述重复度表示所述每个商品文案中不同文案描述之间的重复程度;所述一致性表示所述每个商品文案的属性数据与所述第一属性数据之间的一致程度;
根据所述判断结果,得到所述商品的第一候选文案集。
4.根据权利要求1所述的方法,其特征在于,所述第一文案生成模型是通过以下步骤训练得到的:
获取商品的历史文案以及第二属性数据;
将所述第二属性数据与所述历史文案进行匹配,得到第二关键属性数据;
将所述历史文案、所述第二属性数据以及所述第二关键属性数据作为训练数据;
通过所述训练数据训练所述第一文案生成模型,得到训练完成的所述第一文案生成模型。
5.根据权利要求4所述的方法,其特征在于,所述第一文案生成模型包括:第一解码器和第二解码器,所述第一解码器用于对所述第二属性数据进行解码,得到所述第二关键属性数据;所述第二解码器用于生成所述第二关键属性数据对应的文案描述。
6.根据权利要求5所述的方法,其特征在于,所述通过所述训练数据训练所述第一文案生成模型,得到训练完成的所述第一文案生成模型,包括:
使用双注意力机制对所述第一解码器的网络参数进行调整,并使用覆盖机制对所述第二解码器的网络参数进行调整,得到训练完成的所述第一文案生成模型。
7.根据权利要求1所述的方法,其特征在于,所述按照质量判定规则对所述候选文案数据进行筛选,包括:
在获取商品的第一属性数据后,将所述第一属性数据输入到至少两种文案生成模型中,得到所述商品的第二候选文案集;所述至少两种文案生成模型包括所述第一文案生成模型;
按照质量判定规则对所述候选文案数据进行筛选;所述候选文案数据包括所述第二候选文案集中的商品文案。
8.根据权利要求1或7所述的方法,其特征在于,所述质量判定规则包括以下至少之一:
基于重复度对所述商品文案的质量进行筛选;所述重复度表示所述每个商品文案中不同文案描述之间的重复程度;
基于一致性对所述商品文案的质量进行筛选;所述一致性表示所述每个商品文案的属性数据与所述第一属性数据之间的一致程度;
基于困惑度对所述商品文案的质量进行筛选;所述困惑度表示所述每个商品文案中文案描述的清晰程度;
基于属性覆盖度对所述商品文案的质量进行筛选;所述属性覆盖度表示所述第一属性数据在每个商品文案中的覆盖程度。
9.一种文案生成装置,其特征在于,所述装置包括:
获取模块,用于获取商品的第一属性数据;
第一确定模块,用于基于预先训练的第一文案生成模型,确定所述商品的第一关键属性数据;所述第一关键属性数据表示第一属性数据中的部分属性数据;
第二确定模块,用于根据所述第一关键属性数据,得到所述商品的第一候选文案集;所述第一候选文案集表示至少一个商品文案的集合;
筛选模块,用于按照质量判定规则对所述候选文案数据进行筛选,确定目标商品文案;所述候选文案数据包括所述第一候选文案集中的商品文案。
10.根据权利要求9所述的装置,其特征在于,所述第二确定模块,用于根据所述第一关键属性数据,得到所述商品的第一候选文案集,包括:
根据所述第一关键属性数据,逐句生成针对所述第一关键属性数据的文案描述;所述每个第一关键属性数据对应至少一句文案描述;
将所述每个第一关键属性数据对应的文案描述进行拼接,生成至少一个商品文案;
基于所述至少一个商品文案,得到所述商品的第一候选文案集。
11.根据权利要求10所述的装置,其特征在于,所述第二确定模块,用于基于所述至少一个商品文案,得到所述商品的第一候选文案集,包括:
对所述每个商品文案的重复度和/或一致性进行判断,得到判断结果;所述重复度表示所述每个商品文案中不同文案描述之间的重复程度;所述一致性表示所述每个商品文案的属性数据与所述第一属性数据之间的一致程度;
根据所述判断结果,得到所述商品的第一候选文案集。
12.根据权利要求9所述的装置,其特征在于,所述装置还包括训练模块,所述训练模块,用于:
获取商品的历史文案以及第二属性数据;
将所述第二属性数据与所述历史文案进行匹配,得到第二关键属性数据;
将所述历史文案、所述第二属性数据以及所述第二关键属性数据作为训练数据;
通过所述训练数据训练所述第一文案生成模型,得到训练完成的所述第一文案生成模型。
13.根据权利要求12所述的装置,其特征在于,所述第一文案生成模型包括:第一解码器和第二解码器,所述第一解码器用于对所述第二属性数据进行解码,得到所述第二关键属性数据;所述第二解码器用于生成所述第二关键属性数据对应的文案描述。
14.根据权利要求13所述的装置,其特征在于,所述训练模块,用于通过所述训练数据训练所述第一文案生成模型,得到训练完成的所述第一文案生成模型,包括:
使用双注意力机制对所述第一解码器的网络参数进行调整,并使用覆盖机制对所述第二解码器的网络参数进行调整,得到训练完成的所述第一文案生成模型。
15.根据权利要求9所述的装置,其特征在于,所述筛选模块,用于按照质量判定规则对所述候选文案数据进行筛选,包括:
在获取商品的第一属性数据后,将所述第一属性数据输入到至少两种文案生成模型中,得到所述商品的第二候选文案集;所述至少两种文案生成模型包括所述第一文案生成模型;
按照质量判定规则对所述候选文案数据进行筛选;所述候选文案数据包括所述第二候选文案集中的商品文案。
16.根据权利要求9或15所述的装置,其特征在于,所述质量判定规则包括以下至少之一:
基于重复度对所述商品文案的质量进行筛选;所述重复度表示所述每个商品文案中不同文案描述之间的重复程度;
基于一致性对所述商品文案的质量进行筛选;所述一致性表示所述每个商品文案的属性数据与所述第一属性数据之间的一致程度;
基于困惑度对所述商品文案的质量进行筛选;所述困惑度表示所述每个商品文案中文案描述的清晰程度;
基于属性覆盖度对所述商品文案的质量进行筛选;所述属性覆盖度表示所述第一属性数据在每个商品文案中的覆盖程度。
17.一种电子设备,其特征在于,所述设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1至8任一项所述的方法。
18.一种计算机存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至8任一项所述的方法。
CN202011219419.8A 2020-11-04 2020-11-04 一种文案生成方法、装置、电子设备和存储介质 Pending CN112434493A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202011219419.8A CN112434493A (zh) 2020-11-04 2020-11-04 一种文案生成方法、装置、电子设备和存储介质
US18/251,055 US20230385535A1 (en) 2020-11-04 2021-10-29 Copy generation method and apparatus, and electronic device, storage medium and program
PCT/CN2021/127421 WO2022095798A1 (zh) 2020-11-04 2021-10-29 一种文案生成方法、装置、电子设备、存储介质和程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011219419.8A CN112434493A (zh) 2020-11-04 2020-11-04 一种文案生成方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN112434493A true CN112434493A (zh) 2021-03-02

Family

ID=74695429

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011219419.8A Pending CN112434493A (zh) 2020-11-04 2020-11-04 一种文案生成方法、装置、电子设备和存储介质

Country Status (3)

Country Link
US (1) US20230385535A1 (zh)
CN (1) CN112434493A (zh)
WO (1) WO2022095798A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113420217A (zh) * 2021-06-25 2021-09-21 北京三快在线科技有限公司 生成文案的方法、装置、电子设备和计算机可读存储介质
CN113553838A (zh) * 2021-08-03 2021-10-26 稿定(厦门)科技有限公司 一种商品文案生成方法及装置
CN114328798A (zh) * 2021-11-09 2022-04-12 腾讯科技(深圳)有限公司 搜索文本的处理方法、装置、设备、存储介质和程序产品
WO2022095798A1 (zh) * 2020-11-04 2022-05-12 北京沃东天骏信息技术有限公司 一种文案生成方法、装置、电子设备、存储介质和程序
WO2023221934A1 (zh) * 2022-05-19 2023-11-23 北京沃东天骏信息技术有限公司 文案生成方法、模型训练方法及装置、设备、存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932335A (zh) * 2018-07-10 2018-12-04 北京京东尚科信息技术有限公司 一种生成文案的方法和装置
CN110362823A (zh) * 2019-06-21 2019-10-22 北京百度网讯科技有限公司 描述文本生成模型的训练方法和装置
CN111242741A (zh) * 2020-01-15 2020-06-05 新石器慧通(北京)科技有限公司 一种基于场景的商品文案生成方法、系统及无人零售车
CN111581923A (zh) * 2020-04-29 2020-08-25 北京字节跳动网络技术有限公司 文案生成方法、装置、设备和计算机可读存储介质
CN111782784A (zh) * 2020-06-24 2020-10-16 京东数字科技控股有限公司 一种文案生成方法、装置、电子设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992764B (zh) * 2017-12-29 2022-12-16 阿里巴巴集团控股有限公司 一种文案生成方法及装置
CN110321537B (zh) * 2019-06-11 2023-04-07 创新先进技术有限公司 一种文案生成方法和装置
CN110852793A (zh) * 2019-10-28 2020-02-28 北京深演智能科技股份有限公司 文案推荐方法及装置、电子设备
CN112434493A (zh) * 2020-11-04 2021-03-02 北京沃东天骏信息技术有限公司 一种文案生成方法、装置、电子设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932335A (zh) * 2018-07-10 2018-12-04 北京京东尚科信息技术有限公司 一种生成文案的方法和装置
CN110362823A (zh) * 2019-06-21 2019-10-22 北京百度网讯科技有限公司 描述文本生成模型的训练方法和装置
CN111242741A (zh) * 2020-01-15 2020-06-05 新石器慧通(北京)科技有限公司 一种基于场景的商品文案生成方法、系统及无人零售车
CN111581923A (zh) * 2020-04-29 2020-08-25 北京字节跳动网络技术有限公司 文案生成方法、装置、设备和计算机可读存储介质
CN111782784A (zh) * 2020-06-24 2020-10-16 京东数字科技控股有限公司 一种文案生成方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张秋韵;郭斌;郝少阳;王豪;於志文;景瑶;: "CrowdDepict:多源群智数据驱动的个性化商品描述生成方法", 计算机科学与探索, no. 10 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022095798A1 (zh) * 2020-11-04 2022-05-12 北京沃东天骏信息技术有限公司 一种文案生成方法、装置、电子设备、存储介质和程序
CN113420217A (zh) * 2021-06-25 2021-09-21 北京三快在线科技有限公司 生成文案的方法、装置、电子设备和计算机可读存储介质
CN113553838A (zh) * 2021-08-03 2021-10-26 稿定(厦门)科技有限公司 一种商品文案生成方法及装置
WO2023010850A1 (zh) * 2021-08-03 2023-02-09 稿定(厦门)科技有限公司 商品文案生成方法及装置
CN114328798A (zh) * 2021-11-09 2022-04-12 腾讯科技(深圳)有限公司 搜索文本的处理方法、装置、设备、存储介质和程序产品
CN114328798B (zh) * 2021-11-09 2024-02-23 腾讯科技(深圳)有限公司 搜索文本的处理方法、装置、设备、存储介质和程序产品
WO2023221934A1 (zh) * 2022-05-19 2023-11-23 北京沃东天骏信息技术有限公司 文案生成方法、模型训练方法及装置、设备、存储介质

Also Published As

Publication number Publication date
WO2022095798A1 (zh) 2022-05-12
US20230385535A1 (en) 2023-11-30

Similar Documents

Publication Publication Date Title
CN112434493A (zh) 一种文案生成方法、装置、电子设备和存储介质
US20220147845A1 (en) Generation of recommendation reason
CN108932335B (zh) 一种生成文案的方法和装置
TWI557664B (zh) Product information publishing method and device
CN103309886B (zh) 一种基于交易平台的结构化信息搜索方法和装置
CN109992763A (zh) 语言标注处理方法、系统、电子设备及计算机可读介质
CN105138508A (zh) 一种基于偏好扩散的上下文推荐系统
CN109598586A (zh) 一种基于注意力模型的推荐方法
CN114971730A (zh) 文案素材提取方法及其装置、设备、介质、产品
CN112435064A (zh) 推荐信息的评估方法、装置、设备及计算机可读存储介质
CN107918778A (zh) 一种信息匹配方法及相关装置
CN110738553A (zh) 一种将不同商城的商品链接进行相互映射的方法及系统
CN110399602A (zh) 一种评测文本可靠性的方法和装置
CN116796045A (zh) 一种多维度图书分级方法、系统及可读介质
Gong et al. Aesthetics, personalization and recommendation: A survey on deep learning in fashion
KR20200115044A (ko) 시각 검색 쿼리를 사용하여 물리적 객체를 식별하는 기법
CN110826321A (zh) 合同文件风险校验方法、装置、计算机设备以及存储介质
Goncalves et al. The importance of brand affinity in luxury fashion recommendations
WO2023159766A1 (zh) 餐饮数据分析方法、装置、电子设备及存储介质
CN110738051A (zh) 菜名实体识别方法、装置、电子设备及存储介质
Dupuy et al. Qualitative and descriptive topic extraction from movie reviews using lda
CN115618871A (zh) 商户文本的识别方法、装置、设备和存储介质
CN113761349A (zh) 一种推荐信息的挖掘方法和装置
CN113127597B (zh) 搜索信息的处理方法、装置及电子设备
CN113254824A (zh) 内容确定方法、设备、介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination