CN117217236A - 文本生成方法、装置、电子设备及计算机可读存储介质 - Google Patents
文本生成方法、装置、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN117217236A CN117217236A CN202311468946.6A CN202311468946A CN117217236A CN 117217236 A CN117217236 A CN 117217236A CN 202311468946 A CN202311468946 A CN 202311468946A CN 117217236 A CN117217236 A CN 117217236A
- Authority
- CN
- China
- Prior art keywords
- text
- selling point
- model
- long
- commodity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000012549 training Methods 0.000 claims description 56
- 238000001914 filtration Methods 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 22
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 8
- 238000010801 machine learning Methods 0.000 abstract description 2
- 229920000742 Cotton Polymers 0.000 description 7
- 239000006071 cream Substances 0.000 description 6
- 238000013461 design Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000009940 knitting Methods 0.000 description 5
- 238000012015 optical character recognition Methods 0.000 description 5
- 238000007639 printing Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 239000004744 fabric Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000003205 fragrance Substances 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 239000002250 absorbent Substances 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000006210 lotion Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000009958 sewing Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本申请适用于机器学习技术领域,提供了文本生成方法、装置、电子设备及计算机可读存储介质,包括:获取商品在至少两个维度上的商品信息;根据获取的所述商品信息确定长文本;根据所述长文本生成所述商品对应的卖点文本。通过上述方法,能够提高生成的卖点文本的准确度。
Description
技术领域
本申请属于机器学习技术领域,尤其涉及文本生成方法、装置、电子设备及计算机可读存储介质。
背景技术
目前,用户通过网络售卖平台可以方便地购买其所需的物品。
网络售卖平台通常会根据当前的促销活动以及售卖的物品的名称等生成卖点文本,并展示在网络售卖平台的界面。这样,当用户浏览该网络售卖平台的界面时,用户可根据该卖点文本快速查找到其所需购买的物品。
现有的卖点文本生成方法中,主要依赖商品预设的卖点文案模板或已有的卖点文案关键词,导致生成的卖点文本的内容较单一。
发明内容
本申请实施例提供了文本生成方法、装置、电子设备及计算机可读存储介质,可以解决现有方法生成的卖点文本的内容过于单一的问题。
第一方面,本申请实施例提供了一种文本生成方法,包括:
获取商品在至少两个维度上的商品信息;
根据获取的所述商品信息确定长文本;
根据所述长文本生成所述商品对应的卖点文本。
第二方面,本申请实施例提供了一种文本生成装置,包括:
商品信息获取模块,用于获取商品在至少两个维度上的商品信息;
长文本确定模块,用于根据获取的所述商品信息确定长文本;
卖点文本生成模块,用于根据所述长文本生成所述商品对应的卖点文本。
第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的方法。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行上述第一方面所述的方法。
本申请实施例与现有技术相比存在的有益效果是:
本申请实施例中,由于长文本是由商品的至少2个维度的商品信息得到,因此,根据该长文本确定商品的卖点文本时,相当于依赖更丰富的商品信息,从而能够提高得到的卖点文本的多样性,使得生成的卖点文本与商品的匹配度更高,进而使得生成的卖点文本的准确度更高。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1是本申请一实施例提供的一种文本生成方法的流程示意图;
图2是本申请一实施例提供的一种详情页图片的示意图;
图3是本申请一实施例提供的一种对图2的详情页图片进行文本识别后得到的文本序列的示意图;
图4是本申请一实施例提供的一种文本生成装置的结构示意图;
图5是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。
在生成卖点文本时,若只是依赖商品的卖点文案模板或已有的卖点文案关键词,则由于卖点文案模板或卖点文案关键词所包含的信息量较少,将导致生成的卖点文本的内容过于单一。
为了丰富生成的卖点文本所包含的信息,本申请实施例提供了一种文本生成方法。在该文本生成方法中,获取商品在至少两个维度上的商品信息,以保证获取较多的商品信息,再根据该商品信息确定长文本,以该长文本生成商品的卖点文本。
下面结合附图对本申请实施例提供的文本生成方法进行描述。
图1示出了本申请实施例提供的一种文本生成方法的流程示意图,详述如下:
S11、获取商品在至少两个维度上的商品信息。
其中,这里的商品是指在网络售卖平台上售卖的商品,该商品包括具有实际体积的物品,也可以包括没有实际体积的服务等。
其中,这里的维度包括但不限于以下维度:商品的标题、商品的分类、商品的描述文本、商品的详情页图片等。
其中,商品的标题对应的商品信息通常包括商品的品牌和具体的分类的信息,如品牌A面霜。
其中,商品的分类对应的商品信息包括该商品所属的一级分类、二级分类等各个分类的信息。需要指出的是,这里的分类的数量与网络售卖平台对商品的分类确定,即该商品的分类所包括的分类的数量与一级分类到该商品对应的最小的分类所包括的数量相等。例如,对于面霜来说,其一级分类可能为“美妆”,二级分类可能为“乳液面霜”,则“面霜”这个商品对应的分类的商品信息可以为:“美妆”、“乳液面霜”。例如,对于连帽卫衣来说,其一级分类可能为“女装”,二级分类可能为“卫衣”,三级分类可能包括“开衫卫衣”、“连帽卫衣”、“修身卫衣”等,则该“连帽卫衣”这个商品对应的分类的商品信息可以为:“女装”、“卫衣”、“连帽卫衣”。
本申请实施例中,对同一个商品,获取该商品在至少两个维度上的商品信息,如获取该商品在商品的标题和商品的分类这两个维度所对应的商品信息。
S12、根据获取的上述商品信息确定长文本。
其中,这里的长文本是指由多于1个的文本拼接得到的文本,如该长文本为由2个或2个以上的文本拼接得到的文本。拼接时,可按照预设的固定的排列规则或者按照获取的商品信息的先后顺序进行排列,此处不作限定。
具体地,将各个商品信息对应的文本拼接为一个长文本。本申请实施例中,考虑到需要生成的卖点文本属于文本,而依赖一个文本生成另一个文本更便捷,因此,先将获取的至少两个维度的商品信息处理为一个长文本。
S13、根据上述长文本生成上述商品对应的卖点文本。
具体地,可通过预先训练出卖点生成模型,通过该卖点生成模型输出与该长文本对应的卖点文本。当然,也可通过预先设置长文本与卖点文本的映射关系,当获取到某个商品的长文本后,再根据该映射关系确定对应的卖点文本,此处不作限定。
本申请实施例中,由于长文本是由商品的至少2个维度的商品信息得到,因此,根据该长文本确定商品的卖点文本时,相当于依赖更丰富的商品信息,从而能够提高得到的卖点文本的多样性,使得生成的卖点文本与商品的匹配度更高,进而使得生成的卖点文本的准确度更高。
在一些实施例中,若获取的上述商品信息包括详情页图片,则上述S12包括:
A1、对上述详情页图片进行文本识别,得到上述详情页图片对应的文本序列。
假设品牌A的详情页图片如图2所示,图2中的椭圆形表示面霜的图案。由于只需要提取该详情页图片包括的文本,因此,可直接对该详情页图片进行文本识别,如采用光学字符识别(Optical Character Recognition,OCR)算法进行文本识别,得到如图3所示的3个文本序列(即每一行的文本作为一个文本序列)。
需要指出的是,进行文本识别时,除了采用OCR算法,还可以采用模板匹配等算法,此处不作限定。
A2、对每一个文本序列,采用预设的文本过滤模型对上述文本序列进行处理,得到上述文本过滤模型输出的文本置信度,其中,上述文本过滤模型用于确定并输出上述文本序列的文本置信度,上述文本置信度用于指示该文本序列是否需要过滤。
本申请实施例中,考虑到详情页图片中通常包含较多的信息量,而这些信息量中可能包含用户在初次浏览时并不关注的信息,因此,需要先判断识别得到的各个文本序列需要过滤的概率。
可选地,上述的文本过滤模型可通过以下方式训练得到:
(1)、在通过OCR对多个商品的详情页图片进行识别得到多个文本序列后,对部分或全部的文本序列进行人工标注,以标注出文本序列中哪些文本需要过滤,哪些文本不需要过滤。
结合图3,假设人工标注结果如表1所示。
表1:
在表1中,“0”表示用户认为该文本信息需要过滤,“1”表示用户认为该文本信息不需要过滤。
(2)、根据上述人工标注后的文本序列作为训练数据集,根据该训练数据集对待训练的文本过滤模型进行训练,直到训练后的文本过滤模型输出的文本置信度与用户标注的标签所对应的模型损失值相较于上一轮训练时的模型损失值变化低于预设的损失阈值,否则,将以模型损失值为依据,采用反向传播和/或梯度更新的方式对待训练的文本过滤模型进行更新,直到训练结束。其中,模型损失值可通过交叉熵损失函数计算得到。
A3、根据各个文本置信度过滤上述详情页图片对应的文本序列,得到过滤后的文本序列。
其中,文本置信度为一个概率值。若该文本置信度为二分类的置信度,则可根据概率值的范围的中间值与当前输出的文本置信度比较,来快速判断出该文本置信度对应的文本序列是否需要过滤。例如,假设文本置信度的取值范围区间为[0,1],则该概率值的范围的中间值为0.5,即可将不大于0.5的文本置信度映射到同一类,如映射为“0”这个标签,而将大于0.5的文本置信度映射到另一类,如映射为“1”这个标签,此时,可将映射为“0”的文本置信度所对应的文本序列判定为需要过滤的文本序列,将映射为“1”的文本置信度所对应的文本序列判定为不需要过滤的文本序列。
A4、根据上述过滤后的文本序列确定上述长文本。
由于对详情页图片进行文本识别得到的文本序列通常包含与卖点无关的文本,因此,本申请实施例中,在得到文本序列之后,还对该文本序列过滤后再确定长文本,能够提高得到的长文本所包含的有效信息的占比,进而提高后续根据该长文本确定的卖点文本的准确度。
在一些实施例中,上述预设的文本过滤模型的结构包括BERT模型和Dense神经网络层。
此时,对任一个文本序列,上述BERT模型用于将上述文本序列拆分成多个token,得到token序列,提取上述token序列的深层语义特征,根据提取的各个上述深层语义特征构造句子特征序列。其中,在自然语言处理(Natural Language Processing,NLP)中,token是指文本序列中的一个基本单位,通常可以是一个单词,或是一个词组,或是一个标点符号,或是一个字符等,取决于文本处理的需求和方法。
此时,上述Dense神经网络层根据上述句子特征序列输出上述文本置信度。
其中,BERT(Bidirectional Encoder Representation from Transformers)模型是由Google AI研究院提出的一种预训练模型。
其中,Dense神经网络层是一种全连接层,在该Dense中,每一个结点都与上一层的所有结点相连,用于把前面提取到的特征综合起来。由于其全相连的特性,因此,全连接层的参数通常最多。
具体地,BERT模型将文本序列拆分成多个token,以将文本序列转化为token序列,提取该token序列的深层语义特征,获得由每个token相对应的文本特征向量构成的句子特征序列,将该句子特征序列作为前缀信息进行经由Dense全连接层输出文本置信度。
由于包括BERT模型和Dense神经网络层这种结构时,可以利用BERT这一预训练模型(预训练模型一般是在TB级别的文本训练知识储备能力)的能力来微调下游的分类任务,相当于已经有了一个很有知识储备的模型给它一些任务数据,且Dense神经网络层能够综合已提取的特征,因此,后面采用该预训练模型对新的文本识别时,能够很容易且准确地判断出该新的文本中哪些文本需要过滤。即本申请实施例的文本过滤模型的结构包括BERT模型和Dense神经网络层时,能够提高该文本过滤模型输出的文本置信度的准确度。
在一些实施例中,考虑到卖点文本通常侧重用于宣传该商品的特点,而非该商品的品牌,此时,上述文本生成方法还包括:
获取上述商品的品牌信息。
上述S13包括:
将上述长文本作为预设的卖点生成模型的正向输入,以及,将上述品牌信息作为卖点生成模型的负向输入,得到上述卖点生成模型输出的上述商品对应的卖点文本。
其中,正向输入是用于生成卖点文本的主体输入,负向输入是生成卖点文本时,卖点生成模型不允许在卖点文本存在的信息。即,当将品牌信息作为卖点生成模型的负向输入时,得到的卖点文本将不包括商品的品牌信息。
本申请实施例中,由于将品牌信息作为卖点生成模型的负向输入,因此,能够保证生成的卖点文本不包括商品的品牌信息。此外,由于生成的卖点文本不包括商品的品牌信息,因此,也有利于保证网络售卖平台对不同品牌的商品的推荐的均衡性。
在一些实施例中,在通过预设的卖点生成模型生成卖点文本之前,需要先训练出该卖点生成模型,即在上述将上述长文本作为预设的卖点生成模型的正向输入之前,还包括:
B1、获取多个训练长文本,其中,一个上述训练长文本与一个商品对应。
其中,这里的训练长文本是指用于对待训练的卖点生成模型进行训练的长文本。根据上面的描述可知,一个商品的长文本是由该商品至少2个维度的商品信息确定,即这里的每一个训练长文本均是由至少2个维度的商品信息确定。
B2、通过生成式预训练Transformer(Generative Pre-Trained Transformer,GPT)生成各个上述训练长文本所对应的卖点关键词,其中,上述GPT模型用于根据预设的提示词生成上述训练长文本的卖点关键词。
具体地,可先从训练长文本或其他长文本中确定出目标训练长文本,再确定该目标训练长文本对应的卖点关键词,这些目标训练长文本和卖点关键词作为GPT的提示词。GPT再根据该提示词生成各个训练长文本对应的卖点关键词。
例如,假设GPT的提示词(Prompt)如下:给你一个商品信息:商品标题:男装 t恤男2023夏季短袖圆领百搭上衣时尚潮流印花t恤男士打底衫 XYFS2002,详情页文本:时尚潮流休闲易搭,简约搭配,趣味印花色彩,碰撞,设计新颖大胆尽显时尚感,鲜明的印花图案突出设计感,亲肤健康棉•耐磨不起球,肤感面料,透气舒适面料亲肤有型,简单轻潮由感而发,简色运动系列,轻松追随潮流的脚步,让其更具前卫的潮流风范,时尚圆领设计,潮流印花设计,领口设计,贴合身型,洋溢青春活力。,纯棉面料,细腻亲肤,吸汗透气,袖口设计,走线整齐规则,立体修身。它的卖点关键词是:潮流印花、舒适款式、多色可选、亲肤面料、修身版型、时尚圆领、立体车线、多场合适穿;
需要生成卖点关键词的长文本为:商品标题:春装七分袖针织衫女小香风上衣2023年春夏v领打底衫 X-HXA1784,详情页文本:纯棉针织时代,把整个人衬得雅致温柔,提升整体基调,另外还有一点文艺知性的气息,轻盈无压奢柔舒适,优雅气质由内而外。
则该GPT根据Prompt生成的卖点关键词可能为:纯棉针织、小香风、雅致温柔、文艺知性、轻盈无压、奢柔舒适、气质内敛。
即通过GPT,能够快速生成各个训练长文本所对应的卖点关键词。
B3、以预设的关键词黑名单为依据,删除生成的上述卖点关键词中的目标关键词,得到剩余卖点关键词,其中,上述目标关键词为生成的上述卖点关键词中与上述关键词黑名单中的卖点关键词相同的卖点关键词。
本申请实施例中,考虑到GPT是自动学习出训练长文本的卖点关键词,即这些卖点关键词中很大概率包含并不适合作为卖点文本的词语,因此,根据预设的关键词黑名单对GPT生成的卖点关键词进行筛选,能够保证得到筛选后的卖点关键词更准确。
B4、将上述多个训练长文本作为输入的文本,上述剩余卖点关键词作为输出的文本,对待训练的卖点生成模型进行训练,得到的训练后的卖点生成模型作为上述预设的卖点生成模型。
本申请实施例中,由于通过GPT模型生成训练长文本对应的卖点关键词,而该GPT模型的生成速度较高,因此,通过上述方式能够快速地生成卖点关键词,从而极大提高了获取卖点关键词的效率。此外,由于GPT模型是预训练的模型,其生成的卖点关键词的准确度仍需要进一步提高,因此,结合预设的关键词黑名单对GPT模型生成的卖点关键词进行过滤后,再对待训练的卖点生成模型进行训练,从而能够提高训练数据的准确度,进而能够提高训练后得到的卖点生成模型的准确度。
在一些实施例中,上述待训练的卖点生成模型为BART-base-chinese模型,该BART-base-chinese模型是一种基于Transformer架构的预训练语言生成模型,专门针对中文文本进行训练的模型。
该卖点生成模型可通过以下方式训练:
通过待训练的卖点生成模型将文本序列拆分成多个token,以将文本序列转化为token序列。应用BART预训练模型的编码器提取该token序列的深层语义特征,获得由每个token相对应的文本特征向量构成的句子特征序列。
将句子特征序列输入到BART预训练模型的解码器,由解码器预测出相对应的卖点关键词;其中,解码器根据句子特征序列预测出下一个token的文本特征向量,该token的文本特征向量将追加到句子特征序列作为输入以继续预测出后续token的文本向量,以此类推,直到满足停止条件产出最终的卖点关键词序列(即卖点文本)。
根据由解码器预测出的卖点文本与训练样本中的卖点文本(即根据剩余卖点关键词所确定的文本)计算模型损失值,评测指标使用rouge_1,rouge_2,rouge_3的综合指标:
0.2 ×rouge_1 + 0.4 ×rouge_2 + 0.4 ×rouge_3
其中,rouge_1 关注的是单字, rouge_2关注的是字节片段的频度,而rouge_3关注的是最长公共子串。由于通过3方面进行评测指标的计算,因此,能够提高得到的评测指标的准确度。
当模型训练轮数到达预设的轮数后,终止对微调模型的训练;反之根据模型损失值对模型进行反向传播、梯度更新,继续下一轮训练样本对解码器的迭代训练过程。
在一些实施例中,在对生成的卖点关键词过虑之前,需要先确定关键词黑名单。即在上述B3之前,还包括:
C1、对生成的上述卖点关键词向量化,并对向量后的卖点关键词进行聚类,得到聚类簇。
具体地,对生成的各个卖点关键词进行切分,即通过预设的字符(如采用逗号)分割卖点关键词的信息。例如,若某个卖点关键词为:“纯棉针织、小香风、雅致温柔、文艺知性、轻盈无压、奢柔舒适、气质内敛”,则拆分结果可为:[纯棉针织,小香风,雅致温柔,文艺知性,轻盈无压,奢柔舒适,气质内敛]。
在拆分后,将拆分后的卖点关键词向量化,得到向量化后的卖点关键词,再将向量化后的卖点关键词进行聚类处理。
可选地,考虑到Roformer-Sim模型融合了检索和生成于一体,其适用场景更大,因此,可使用预训练模型Roformer-Sim模型将拆分后的卖点关键词向量化。
可选地,考虑到K均值(K-means)聚类算法具有快速、简单等优势,因此,可选择K-means聚类算法进行聚类处理。可选地,考虑到商品种类较多,因此,类簇个数选择较大的数值,如将类簇个数确定为1000个,以获得更准确的聚类簇。
C2、根据上述聚类簇确定上述关键词黑名单。
具体地,确定聚类簇中无效的聚类中心簇,根据该无效的聚类中心簇生成关键词黑名单。其中,无效的聚类中心簇包括:商品的产地、售后等。
需要指出的是,关键词黑名单所包括的词语可以通过上述方式确定,还可以根据用户经验设置得到,此处不作限定。
在一些实施例中,为了提高后续的查找效率,上述C2具体包括:
根据上述聚类簇确定关键词黑名单所包括的关键词,使用前缀树算法存储确定的关键词黑名单所包括的关键词,得到对应的关键词黑名单。
其中,前缀树算法是一种变种的哈希树,相比于一般的哈希表,其能够提供更高的查找效率。具体地,通过前缀树算法构建关键词黑名单的前缀字段,根据该前缀字段实现对对应的关键词的存储。由于关键词黑名单根据前缀树算法存储,因此,能够快速从关键词黑名单查找所需的关键词,如在需要将生成的卖点关键词于该关键词黑名单中的关键词进行比较时,能够快速得到对应的比较结果。
在一些实施例中,为了避免重复生成卖点文本,上述S12包括:
在判断出没有生成上述商品信息对应的卖点文本的情况下,根据获取的上述商品信息确定长文本。
具体地,若卖点文本按照间隔时间生成,则将上一次生成卖点文本之后的时刻到当前时刻所更新的商品信息判定为没有生成卖点文本的商品信息,其中,这里的更新的商品信息包括在这段时间内第一次上架的商品的商品信息和这段时间内非第一次上架(但没下架)的商品但对应的商品信息存在修改的商品信息。
具体地,若卖点文本按批次生成,则将最新一批次的商品信息判定为没有生成卖点文本的商品信息,将之前批次存在修改的商品信息也判定为没有生成卖点文本的商品信息。
本申请实施例中,由于只有在商品信息的卖点文本没有生成的情况下才根据该商品信息确定长文本,因此,能够避免后续对同一商品信息执行卖点文本的生成处理。
可选地,考虑到商品卖点是为了便于用户快速获取商品的有效信息,而用户只能浏览网络售卖平台上架的商品,因此,本申请实施例只对上架且当前时刻仍没有下架计划的商品信息进行是否已生成卖点文本的判断。
在一些实施例中,采用第一数据库和第二数据库分别存储生成的卖点文本。其中,第一数据库的查询效率高于第二数据库的查询效率。如生成卖点文本后先存储在第二数据库,之后再从同步到第一数据库,如每个半小时将第二数据存储的卖点文本同步到第一数据库。
可选地,第一数据库是内存型的数据库,用于缓存生成的卖点文本,第二数据库是非内存型的数据库。此时,前端展示卖点文本时,默认先在第一数据库查找,如果没有查找到(比如刚生成的卖点文本,第二数据库还未同步到第一数据库),再去第二数据库查找。
可选地,第一数据库可为redis数据库,第二数据库可为mysql数据库。
在一些实施例中,当针对商品生成卖点文本之后,可将该卖点文本覆盖在该商品的图片的下方并显示,以便用户在浏览时,能够直观查看到该卖点文本。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
对应于上文实施例所描述的文本生成方法,图4示出了本申请实施例提供的一种文本生成装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图4,该文本生成装置4包括:商品信息获取模块41、长文本确定模块42、卖点文本生成模块43。其中:
商品信息获取模块41,用于获取商品在至少两个维度上的商品信息。
长文本确定模块42,用于根据获取的上述商品信息确定长文本。
卖点文本生成模块43,用于根据上述长文本生成上述商品对应的卖点文本。
本申请实施例中,由于长文本是由商品的至少2个维度的商品信息得到,因此,根据该长文本确定商品的卖点文本时,相当于依赖更丰富的商品信息,从而能够提高得到的卖点文本的多样性,使得生成的卖点文本与商品的匹配度更高,进而使得生成的卖点文本的准确度更高。
在一些实施例中,若获取的上述商品信息包括详情页图片,则上述长文本确定模块42包括:
文本识别单元,用于对上述详情页图片进行文本识别,得到上述详情页图片对应的文本序列。
文本置信度确定单元,用于对每一个文本序列,采用预设的文本过滤模型对上述文本序列进行处理,得到上述文本过滤模型输出的文本置信度,其中,上述文本过滤模型用于确定并输出上述文本序列的文本置信度,上述文本置信度用于指示该文本序列是否需要过滤。
文本过滤单元,用于根据各个上述文本置信度过滤详情页图片对应的文本序列,得到过滤后的文本序列。
长文本确定单元,用于根据上述过滤后的文本序列确定上述长文本。
在一些实施例中,上述预设的文本过滤模型的结构包括BERT模型和Dense神经网络层。
上述BERT模型用于将上述文本序列拆分成多个token,得到token序列,提取上述token序列的深层语义特征,根据提取的各个上述深层语义特征构造句子特征序列。
上述Dense神经网络层根据上述句子特征序列输出上述文本置信度。
在一些实施例中,本申请实施例提供的文本生成装置4还包括:
品牌信息获取模块,用于获取上述商品的品牌信息。
对应地,上述卖点文本生成模块43具体用于:
将上述长文本作为预设的卖点生成模型的正向输入,以及,将上述品牌信息作为卖点生成模型的负向输入,得到上述卖点生成模型输出的上述商品对应的卖点文本。
在一些实施例中,本申请实施例提供的文本生成装置4还包括:
训练长文本获取模块,用于在上述将上述长文本作为预设的卖点生成模型的正向输入之前,获取多个训练长文本,其中,一个上述训练长文本与一个商品对应。
卖点关键词生成模块,用于通过GPT模型生成各个上述训练长文本所对应的卖点关键词,其中,上述GPT模型用于根据预设的提示词生成上述训练长文本的卖点关键词。
剩余卖点关键词确定模块,用于以预设的关键词黑名单为依据,删除生成的上述卖点关键词中的目标关键词,得到剩余卖点关键词,其中,上述目标关键词为生成的上述卖点关键词中与上述关键词黑名单中的卖点关键词相同的卖点关键词。
模型训练模块,用于将上述多个训练长文本作为输入的文本,上述剩余卖点关键词作为输出的文本,对待训练的卖点生成模型进行训练,得到的训练后的卖点生成模型作为上述预设的卖点生成模型。
在一些实施例中,本申请实施例提供的文本生成装置4还包括:
聚类模块,用于在上述以预设的关键词黑名单为依据,删除生成的上述卖点关键词中的目标关键词之前,对生成的上述卖点关键词向量化,并对向量后的卖点关键词进行聚类,得到聚类簇。
关键词黑名单确定模块,用于根据上述聚类簇确定上述关键词黑名单。
在一些实施例中,上述长文本确定模块42具体用于:
在判断出没有生成上述商品信息对应的卖点文本的情况下,根据获取的上述商品信息确定长文本。
在一些实施例中,采用第一数据库和第二数据库分别存储生成的卖点文本。其中,第一数据库的查询效率高于第二数据库的查询效率。如生成卖点文本后先存储在第二数据库,之后再从同步到第一数据库,如每个半小时将第二数据存储的卖点文本同步到第一数据库。
可选地,第一数据库是内存型的数据库,用于缓存生成的卖点文本,第二数据库是非内存型的数据库。此时,前端展示卖点文本时,默认先在第一数据库查找,如果没有查找到(比如刚生成的卖点文本,第二数据库还未同步到第一数据库),再去第二数据库查找。
可选地,第一数据库可为redis数据库,第二数据库可为mysql数据库。
在一些实施例中,本申请实施例提供的文本生成装置4还包括:
显示模块,用于当针对商品生成卖点文本之后,可将该卖点文本覆盖在该商品的图片的下方并显示,以便用户在浏览时,能够直观查看到该卖点文本。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
图5为本申请一实施例提供的电子设备的结构示意图。如图5所示,该实施例的电子设备5包括:至少一个处理器50(图5中仅示出一个处理器)、存储器51以及存储在所述存储器51中并可在所述至少一个处理器50上运行的计算机程序52,所述处理器50执行所述计算机程序52时实现上述任意各个方法实施例中的步骤。
所述电子设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该电子设备可包括,但不仅限于,处理器50、存储器51。本领域技术人员可以理解,图5仅仅是电子设备5的举例,并不构成对电子设备5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。
所称处理器50可以是中央处理单元(Central Processing Unit,CPU),该处理器50还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路 (Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器51在一些实施例中可以是所述电子设备5的内部存储单元,例如电子设备5的硬盘或内存。所述存储器51在另一些实施例中也可以是所述电子设备5的外部存储设备,例如所述电子设备5上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器51还可以既包括所述电子设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供了一种网络设备,该网络设备包括:至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意各个方法实施例中的步骤。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述各个方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行时可实现上述各个方法实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/电子设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/网络设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/网络设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种文本生成方法,其特征在于,包括:
获取商品在至少两个维度上的商品信息;
根据获取的所述商品信息确定长文本;
根据所述长文本生成所述商品对应的卖点文本。
2.如权利要求1所述的文本生成方法,其特征在于,若获取的所述商品信息包括详情页图片,则所述根据获取的所述商品信息确定长文本,包括:
对所述详情页图片进行文本识别,得到所述详情页图片对应的文本序列;
对每一个所述文本序列,采用预设的文本过滤模型对所述文本序列进行处理,得到所述文本过滤模型输出的文本置信度,其中,所述文本过滤模型用于确定并输出所述文本序列的文本置信度,所述文本置信度用于指示所述文本序列是否需要过滤;
根据各个所述文本置信度过滤所述详情页图片对应的文本序列,得到过滤后的文本序列;
根据所述过滤后的文本序列确定所述长文本。
3.如权利要求2所述的文本生成方法,其特征在于,所述预设的文本过滤模型的结构包括BERT模型和Dense神经网络层;
所述BERT模型用于将所述文本序列拆分成多个token,得到token序列,提取所述token序列的深层语义特征,根据提取的各个所述深层语义特征构造句子特征序列;
所述Dense神经网络层根据所述句子特征序列输出所述文本置信度。
4.如权利要求1所述的文本生成方法,其特征在于,所述文本生成方法还包括:
获取所述商品的品牌信息;
所述根据所述长文本生成所述商品对应的卖点文本,包括:
将所述长文本作为预设的卖点生成模型的正向输入,以及,将所述品牌信息作为卖点生成模型的负向输入,得到所述卖点生成模型输出的所述商品对应的卖点文本。
5.如权利要求4所述的文本生成方法,其特征在于,在所述将所述长文本作为预设的卖点生成模型的正向输入之前,还包括:
获取多个训练长文本,其中,一个所述训练长文本与一个商品对应;
通过GPT模型生成各个所述训练长文本所对应的卖点关键词,其中,所述GPT模型用于根据预设的提示词生成所述训练长文本的卖点关键词;
以预设的关键词黑名单为依据,删除生成的所述卖点关键词中的目标关键词,得到剩余卖点关键词,其中,所述目标关键词为生成的所述卖点关键词中与所述关键词黑名单中的卖点关键词相同的卖点关键词;
将所述多个训练长文本作为输入的文本,所述剩余卖点关键词作为输出的文本,对待训练的卖点生成模型进行训练,得到的训练后的卖点生成模型作为所述预设的卖点生成模型。
6.如权利要求5所述的文本生成方法,其特征在于,在所述以预设的关键词黑名单为依据,删除生成的所述卖点关键词中的目标关键词之前,还包括:
对生成的所述卖点关键词向量化,并对向量后的卖点关键词进行聚类,得到聚类簇;
根据所述聚类簇确定所述关键词黑名单。
7.如权利要求1至6任一项所述的文本生成方法,其特征在于,所述根据获取的所述商品信息确定长文本,包括:
在判断出没有生成所述商品信息对应的卖点文本的情况下,根据获取的所述商品信息确定长文本。
8.一种文本生成装置,其特征在于,包括:
商品信息获取模块,用于获取商品在至少两个维度上的商品信息;
长文本确定模块,用于根据获取的所述商品信息确定长文本;
卖点文本生成模块,用于根据所述长文本生成所述商品对应的卖点文本。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311468946.6A CN117217236B (zh) | 2023-11-07 | 2023-11-07 | 文本生成方法、装置、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311468946.6A CN117217236B (zh) | 2023-11-07 | 2023-11-07 | 文本生成方法、装置、电子设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117217236A true CN117217236A (zh) | 2023-12-12 |
CN117217236B CN117217236B (zh) | 2024-02-27 |
Family
ID=89051395
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311468946.6A Active CN117217236B (zh) | 2023-11-07 | 2023-11-07 | 文本生成方法、装置、电子设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117217236B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115293817A (zh) * | 2022-08-17 | 2022-11-04 | 广州华多网络科技有限公司 | 广告文本生成方法及其装置、设备、介质、产品 |
CN116306588A (zh) * | 2023-03-28 | 2023-06-23 | 阿里巴巴(中国)有限公司 | 一种基于交互的图像生成方法、装置、电子设备及存储介质 |
CN116521906A (zh) * | 2023-04-28 | 2023-08-01 | 广州商研网络科技有限公司 | 元描述生成方法及其装置、设备、介质 |
CN116976920A (zh) * | 2023-08-01 | 2023-10-31 | 广州商研网络科技有限公司 | 商品导购方法及其装置、设备、介质 |
-
2023
- 2023-11-07 CN CN202311468946.6A patent/CN117217236B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115293817A (zh) * | 2022-08-17 | 2022-11-04 | 广州华多网络科技有限公司 | 广告文本生成方法及其装置、设备、介质、产品 |
CN116306588A (zh) * | 2023-03-28 | 2023-06-23 | 阿里巴巴(中国)有限公司 | 一种基于交互的图像生成方法、装置、电子设备及存储介质 |
CN116521906A (zh) * | 2023-04-28 | 2023-08-01 | 广州商研网络科技有限公司 | 元描述生成方法及其装置、设备、介质 |
CN116976920A (zh) * | 2023-08-01 | 2023-10-31 | 广州商研网络科技有限公司 | 商品导购方法及其装置、设备、介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117217236B (zh) | 2024-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103617230B (zh) | 一种基于微博的广告推荐方法及系统 | |
US11276398B1 (en) | System and method for providing natural language recommendations | |
KR102045017B1 (ko) | 이미지/텍스트 기반 디자인 생성 장치 및 방법 | |
CN110489582B (zh) | 个性化展示图像的生成方法及装置、电子设备 | |
CN104866496B (zh) | 确定词素重要性分析模型的方法及装置 | |
US11275906B2 (en) | Natural language text conversion and method therefor | |
Hidayati et al. | Dress with style: Learning style from joint deep embedding of clothing styles and body shapes | |
KR102227896B1 (ko) | 영상데이터의 외형서술데이터 획득 방법, 장치 및 프로그램 | |
CN110325986A (zh) | 文章处理方法、装置、服务器及存储介质 | |
KR102211400B1 (ko) | 이미지/텍스트 기반 디자인 생성 장치 및 방법 | |
Rubio et al. | Multi-modal joint embedding for fashion product retrieval | |
CN117217236B (zh) | 文本生成方法、装置、电子设备及计算机可读存储介质 | |
CN110413818B (zh) | 贴纸推荐方法、装置、计算机可读存储介质和计算机设备 | |
CN112508114A (zh) | 一种智能服装推荐系统及方法 | |
KR20200141387A (ko) | 딥러닝 알고리즘을 이용한 영상데이터 검색방법, 장치 및 프로그램 | |
US20220100792A1 (en) | Method, device, and program for retrieving image data by using deep learning algorithm | |
CN114997921A (zh) | 广告文案推荐方法及其装置、设备、介质、产品 | |
CN109146606A (zh) | 一种品牌推荐方法、电子设备、存储介质及系统 | |
CN115618126A (zh) | 搜索处理方法、系统、计算机可读存储介质及计算机设备 | |
CN112214641A (zh) | 商品簇标题生成方法、装置、计算机系统及可读存储介质 | |
CN112559732A (zh) | 文本处理方法、装置和系统 | |
CN111797622A (zh) | 用于生成属性信息的方法和装置 | |
KR102366595B1 (ko) | 영상데이터의 외형서술데이터 획득 방법, 장치 및 프로그램 | |
CN112036521B (zh) | 信息一致性检测方法、装置、设备及存储介质 | |
WO2023207681A9 (zh) | 用于服饰智能搭配的方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |