CN115935579A - 语言模型的预训练方法、商品信息处理方法及相关装置 - Google Patents

语言模型的预训练方法、商品信息处理方法及相关装置 Download PDF

Info

Publication number
CN115935579A
CN115935579A CN202210005974.3A CN202210005974A CN115935579A CN 115935579 A CN115935579 A CN 115935579A CN 202210005974 A CN202210005974 A CN 202210005974A CN 115935579 A CN115935579 A CN 115935579A
Authority
CN
China
Prior art keywords
text
commodity
picture
language model
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210005974.3A
Other languages
English (en)
Inventor
李浩然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Shangke Information Technology Co Ltd
Priority to CN202210005974.3A priority Critical patent/CN115935579A/zh
Publication of CN115935579A publication Critical patent/CN115935579A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

本申请公开了一种语言模型的预训练方法、商品信息处理方法及相关装置,所述语言模型的预训练方法包括:获取多张商品图片;识别每张商品图片上的文本及确定每张商品图片上的文本的位置信息;基于每张商品图片上的文本的位置信息,将每张商品图片上的文本划分为图片标题和介绍文本;过滤掉每组文本组合中不满足预设质量要求的语句;一组文本组合包括一张商品图片上的图片标题和介绍文本;针对每组文本组合,将图片标题与介绍文本进行配对,确定图片标题是否为介绍文本的总结摘要;利用配对成功的各组文本组合对预训练语言模型的进行生成式文本摘要的预训练,得到预训练语言模型。

Description

语言模型的预训练方法、商品信息处理方法及相关装置
技术领域
本申请涉及模型预训练技术领域,特别涉及一种语言模型的预训练方法、商品信息处理方法及相关装置。
背景技术
语言模型的预训练是自然语音处理技术领域的热点,其对后续训练得到的下游任务的模型的实现效果具体较大的提升,特别是生成式的预训练语言模型对下游任务,如生成式文本摘要和生成式问答等任务的提升非常大。
现有的生成式的预训练语言模型是将输入文本中的部分文本遮掩,并输入预训练模型中进行预训练,以达到通过预训练模型的编码器在对该遮掩的文本进行编码后,解码器进行解码生成被遮掩的文本的目的。
但是由于这种方式的预训练任务是一种通用的文本生成任务,所以当下游任务为生成式文本摘要时两者的差距较大,因此这种方式对于生成式文本摘要的提升先对比较有限。从而使得后续通过预训练模型进一步训练得到的执行下游任务的模型,在对商品信息进行处理时,所得到的结果的准确性较低。
发明内容
基于上述现有技术的不足,本申请提供了一种语言模型的预训练方法、商品信息处理方法及相关装置,以解决现有的方式对于生成式文本摘要的模型的提升比较有限,使得最终训练得到的模型的输出结果准确性较低的问题。
为了实现上述目的,本申请提供了以下技术方案:
本申请第一方面提供了一种语言模型的预训练方法,包括:
获取多张商品图片;
通过光学字符识别模型识别每张所述商品图片上的文本,并确定每张所述商品图片上的文本的位置信息;
分别基于每张所述商品图片上的文本的位置信息,将每张所述商品图片上的文本划分为图片标题和介绍文本;
分别过滤掉每组文本组合中不满足预设质量要求的语句;其中,一组所述文本组合包括一张所述商品图片上的所述图片标题以及所述介绍文本;
针对过滤后得到的每组所述文本组合,将所述文本组合中的所述图片标题与所述介绍文本进行配对,以确定所述图片标题是否为所述介绍文本的总结摘要;
利用配对成功的各组所述文本组合对预先构建的语言模型的进行生成式文本摘要的预训练,得到预训练语言模型。
可选地,在上述的语言模型的预训练方法中,所述分别基于每张所述商品图片上的文本的位置信息,将每张所述商品图片上的文本划分为图片标题和介绍文本,包括:
分别针对每张所述商品图片上的文本,根据所述商品图片上的文本的位置信息,确定出在所述商品图片上满足预设条件的文本;其中,所述预设条件为在所述商品图片中对应的段落布置方式为居中布置,并且在所述商品图片上的所有文本中,具有最大的字号;
将在所述满足预设条件的文本确定为所述商品图片对应的图片标题,将所述商品图片上的其余文本确定为所述商品图片对应的介绍文本。
可选地,在上述的语言模型的预训练方法中,所述分别过滤掉每组文本组合中不满足预设质量要求的语句,包括:
分别基于每组所述文本组合对应的所述光学字符识别模型的识别结果中的文本高度,过滤掉每组所述文本组合中字体高度小于预设高度的语句;
分别基于每组所述文本组合对应的所述光学字符识别模型的识别结果中的置信度,过滤掉每组所述文本组合中置信度小于预设置信度的语句;
分别针对每组所述文本组合,利用GPT模型计算所述文本组合中各个语句的困惑度,并过滤掉困惑度大于预设困惑度的语句。
可选地,在上述的语言模型的预训练方法中,所述针对过滤后得到的每组所述文本组合,将所述文本组合中的所述图片标题与所述介绍文本进行配对,包括:
针对过滤后得到的每个所述文本组合,将所述文本组合输入预先训练好的配对模型中,得到所述文本组合对应的配对结果;其中,所述配对模型预先利用多组正样本和多组负样本训练得到;一组所述正样本包括一段输入文本及其对应的总结摘要;一组所述负样本包括一段输入文本以及对应的随机采样摘要。
本申请第二方面提供了一种商品信息处理方法,包括:
获取目标商品的目标商品信息;所述目标商品信息为属于指定类型的商品信息;
将所述目标商品的目标商品信息输入预先训练好的目标语言模型中,通过所述目标语言模型对所述目标商品的目标商品信息进行处理,得到所述目标商品的目标商品信息对应的精简文本信息;其中,所述目标语言模型预先利用多个商品的目标商品信息,对预训练语言模型进行训练得到;所述预训练语言模型预先利用配对成功的多组文本组合对预先构建的语言模型进行预训练得到;一组所述文本组合包括从一张商品图片上获取到的图片标题和介绍文本组成。
可选地,在上述的商品信息处理方法中,所述目标语言模型的训练方法,包括:
获取多个商品的目标商品信息以及各个所述商品的目标商品信息对应的预期精简文本信息;
分别将各个所述商品的目标商品信息输入所述预训练语言模型中,得到各个所述商品的目标商品信息对应的预测精简文本信息;
判断当前得到的所述预测精简文本信息与所述预期精简文本信息的误差是否小于预设阈值;
若判断当前得到的所述预测精简文本信息与所述预期精简文本信息的误差不小于预设阈值,则基于当前得到的所述预测精简文本信息与所述预期精简文本信息的误差对所述预训练语言模型进行调参,并针对调参后的所述预训练语言模型,返回执行所述分别将各个所述商品的目标商品信息输入所述预训练语言模型中;
若判断当前得到的所述预测精简文本信息与所述预期精简文本信息的误差小于预设阈值,则将当前的所述预训练语言模型确定为目标语言模型。
本申请第三方面提供了一种语言模型的预训练装置,包括:
获取单元,用于获取多张商品图片;
识别单元,用于通过光学字符识别模型识别每张所述商品图片上的文本,并确定每张所述商品图片上的文本的位置信息;
划分单元,用于分别基于每张所述商品图片上的文本的位置信息,将每张所述商品图片上的文本划分为图片标题和介绍文本;
过滤单元,用于分别过滤掉每组文本组合中不满足预设质量要求的语句;其中,一组所述文本组合包括一张所述商品图片上的所述图片标题以及所述介绍文本;
配对单元,用于针对过滤后得到的每组所述文本组合,将所述文本组合中的所述图片标题与所述介绍文本进行配对,以确定所述图片标题是否为所述介绍文本的总结摘要;
训练单元,用于利用配对成功的各组所述文本组合对预先构建的语言模型的进行生成式文本摘要的预训练,得到预训练语言模型。
可选地,在上述的语言模型的预训练装置中,所述划分单元,包括:
第一确定单元,用于分别针对每张所述商品图片上的文本,根据所述商品图片上的文本的位置信息,确定出在所述商品图片上满足预设条件的文本;其中,所述预设条件为在所述商品图片中对应的段落布置方式为居中布置,并且在所述商品图片上的所有文本中,具有最大的字号;
第二确定单元,用于将满足所述预设条件的文本确定为所述商品图片对应的图片标题,以及将所述商品图片上的其余文本确定为所述商品图片对应的介绍文本。
可选地,在上述的语言模型的预训练装置中,所述过滤单元,包括:
第一过滤单元,用于分别基于每组所述文本组合对应的所述光学字符识别模型的识别结果中的文本高度,过滤掉每组所述文本组合中字体高度小于预设高度的语句;
第二过滤单元,用于分别基于每组所述文本组合对应的所述光学字符识别模型的识别结果中的置信度,过滤掉每组所述文本组合中置信度小于预设置信度的语句;
第三过滤单元,用于分别针对每组所述文本组合,利用GPT模型计算所述文本组合中各个语句的困惑度,并过滤掉困惑度大于预设困惑度的语句。
可选地,在上述的语言模型的预训练装置中,所述配对单元,包括:
配对子单元,用于针对过滤后得到的每个所述文本组合,将所述文本组合输入预先训练好的配对模型中,得到所述文本组合对应的配对结果;其中,所述配对模型预先利用多组正样本和多组负样本训练得到;一组所述正样本包括一段输入文本及其对应的总结摘要;一组所述负样本包括一段输入文本以及对应的随机采样摘要。
本申请第四方面提供了一种商品信息处理装置,包括:
第一获取单元,用于获取目标商品的目标商品信息;所述目标商品信息为属于指定类型的商品信息;
输入单元,用于将所述目标商品的目标商品信息输入预先训练好的目标语言模型中,通过所述目标语言模型对所述目标商品的目标商品信息进行处理,得到所述目标商品的目标商品信息对应的精简文本信息;其中,所述目标语言模型预先利用多个商品的目标商品信息,对预训练语言模型进行训练得到;所述预训练语言模型预先利用配对成功的多组文本组合对预先构建的语言模型进行预训练得到;一组所述文本组合包括从一张商品图片上获取到的图片标题和介绍文本组成。
可选地,在上述的商品信息处理装置中,还包括:
第二获取单元,用于获取多个商品的目标商品信息以及各个所述商品的目标商品信息对应的预期精简文本信息;
输入单元,用于分别将各个所述商品的目标商品信息输入所述预训练语言模型中,得到各个所述商品的目标商品信息对应的预测精简文本信息;
判断单元,用于判断当前得到的所述预测精简文本信息与所述预期精简文本信息的误差是否小于预设阈值;
调参单元,用于若判断当前得到的所述预测精简文本信息与所述预期精简文本信息的误差不小于预设阈值,则基于当前得到的所述预测精简文本信息与所述预期精简文本信息的误差对所述预训练语言模型进行调参,并针对调参后的所述预训练语言模型,返回执行所述分别将各个所述商品的目标商品信息输入所述预训练语言模型中;
确定单元,用于若判断当前得到的所述预测精简文本信息与所述预期精简文本信息的误差小于预设阈值,则将当前的所述预训练语言模型确定为目标语言模型。
本申请第五方面提供了一种电子设备,包括:
存储器和处理器;
其中,所述存储器用于存储程序;
所述处理器用于执行所述程序,所述程序被执行时,具体用于实现如上述任意一项所述的语言模型的预训练方法,或用于实现如上述任意一项所述的商品信息处理方法。
本申请第六方面提供一种计算机存储介质,用于存储计算机程序,所述计算机程序被执行时,用于实现如上述任意一项所述的语言模型的预训练方法,或用于实现如上述任意一项所述的商品信息处理方法。
本申请提供了一种语言模型的预训练方法,获取多张商品图片,然后通过光学字符识别模型识别每张商品图片上的文本,并确定每张商品图片上的文本的位置信息,分别基于每张商品图片上的文本的位置信息,将每张商品图片上的文本划分为图片标题和介绍文本,并分别过滤掉每组文本组合中不满足预设质量要求的语句,从而可以保证所得到的数据的质量可用于预训练。其中,一组文本组合包括一张所述商品图片上的图片标题以及介绍文本。然后,针对过滤后得到的每组所述文本组合,将文本组合中的所述图片标题与介绍文本进行配对,以确定图片标题是否为介绍文本的总结摘要,从而可以获取大量的输入文本及其对应的总结摘要。最后,利用配对成功的各组所述文本组合对预训练语言模型的进行生成式文本摘要的预训练,得到预训练模型。由于,预训练语言模型的预训练过程就是利用介绍文本生成标题,因此与生成式文本摘要的任务接近,进而可以为其带来极大的提升,这也保证后续通过预训练模型进一步训练得到的执行下游任务的模型的输出结果的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种语言模型的预训练方法的流程图;
图2为本申请另一实施例提供的一种划分图片标题和介绍文本的方法的流程图;
图3为本申请另一实施例提供的一个示例中的商品图片的示意图;
图4为本申请另一实施例提供的一种过滤文本组合中的语句的方法流程图;
图5为本申请另一实施例提供的一种商品信息处理方法的流程图;
图6为本申请另一实施例提供的一种目标语言模型的训练方法的流程图;
图7为本申请另一实施例提供的一种语言模型的预训练装置的结构示意图;
图8为本申请另一实施例提供的一种划分单元的结构示意图;
图9为本申请另一实施例提供的一种过滤单元的结构示意图;
图10为本申请另一实施例提供的一种商品信息处理装置的结构示意图;
图11为本申请另一实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本申请实施例提供了一种语言模型的预训练方法,如图1所示,包括以下步骤:
S101、获取多张商品图片。
需要说明的是,在本申请实施例中商品图片可以指的是宣传商品的图片,如商品的宣传海报、电商平台上的商品图片等。这类型的图片上,通常都会存在一个针对商品的标题,以及对该标题的展开介绍,所以商品的标题即为其展开介绍的摘要,所以正好符合输入文本及其对应的输出摘要的数据要求,因此本申请实施例中,通过商品图片来获取“输入文本-输出摘要”的数据。
可选地,可以是从数据库中获取,或者从网页中抓取大量的电商平台的商品详情页面的图片。
S102、通过光学字符识别模型识别每张商品图片上的文本,并确定每张商品图片上的文本的位置信息。
在本申请实施例中,采用现有的光学字符识别(OpticalCharacter Recognition,OCR)模型识别每张商品图片上的文本,并针对识别出的文本中的每个字符,确定其位置信息。其中,文本的位置信息可以是文本相对于商品图片的边缘的位置的信息,例如居中、靠右、靠左等,也可以是具体的坐标信息,又或者是两者都同时包括,当然也可以是其他的可以表示文本在商品图片上的位置的信息。
S103、分别基于每张商品图片上的文本的位置信息,将每张商品图片上的文本划分为图片标题和介绍文本。
需要说明的是,通常情况下商品图片的图片标题通常位于商品图片的中间,并且字数相对较少且与其他文本分开布置的特性,所以可以基于每张商品图片上的文本的位置信息,将满足这些特性的文本确定图片标题,其余的文本确定为介绍文本。当然,图片标题通常还具有字体较大、字体为艺术字等属性,所以为了使得划分的结果更加属性,可以是与每张商品图片上的文本的位置信息以及其他的属性信息,将每张商品图片上的文本划分为图片标题和介绍文本。
可选地,本申请另一实施例中,步骤S103的一种具体实施方式,如图2所示,包括以下步骤:
S201、分别针对每张商品图片上的文本,根据商品图片上的文本的位置信息,确定出在商品图片上满足预设条件的文本。
其中,预设条件为在商品图片中对应的段落布置方式为居中布置,并且在商品图片上的所有文本中,具有最大的字号。
S202、将在满足预设条件的文本确定为商品图片对应的图片标题,将商品图片上的其余文本确定为商品图片对应的介绍文本。
在本申请实施例中,基于商品图片上的文本的位置信息以及文本的字体,将商品图片上的文本划分为图片标题和介绍文本。具体将在商品图片上居中且字号最大的文本确定为商品图片对应的图片标题,将商品图片上的其余文本确定为商品图片对应的介绍文本。例如,如图3所示的空调的图片,图片上居中且字号最大的文本为“不用手动除霜食材受冷均匀”,所以将其确定为图片标题,而对于文本“风冷无霜系统让冷风均匀分布在冰箱各处立体循食材不易变质,远离结霜从此上一步清洁”为对图片标题的介绍,其并非是图上居中且字号最大的文本,所以将其确定为介绍文本。
S104、分别过滤掉每组文本组合中不满足预设质量要求的语句。
其中,一组文本组合包括一张商品图片上的图片标题以及介绍文本。
需要说明的是,由于通过步骤S101至S103得到了大量的文本组合,从而可以不通过人工标注就能获取到大量的数据。但是由于文本是基于OCR技术从商品图片上识别得到的,所以识别过程中可能会出现识别不准确的情况。并且商品图片上不适用与预训练的数据也会被识别等情况的存在,因此所得到的文本组合中文本并不一定都适合用于后续的预训练,因此需要先按照预设质量要求对文本进行筛选过滤。
可选地,在本申请另一实施例中,步骤S104的一种具体实施方式,如图4所示,具体包括以下步骤:
S401、分别基于每组文本组合对应的光学字符识别模型的识别结果中的文本高度,过滤掉每组文本组合中字体高度小于预设高度的语句。
由于商品图片上可能会存在一些字体较小的文字,这部分文字通常是一些不关键的信息,所以通常不是图片标题的介绍说明,但是在识别时也会被识别到,所以需要将其过滤掉。
需要说明的是,通过OCR模型识别每张商品图片上的文本时,会得到识别结果,识别结果中会包括有识别到的文本以及各个文本的文本高度,所以可以直接基于每组文本组合对应的OCR识别结果中的文本高度,过滤掉每组文本组合中字体高度小于预设高度的语句。
S402、分别基于每组文本组合对应的光学字符识别模型的识别结果中的置信度,过滤掉每组文本组合中置信度小于预设置信度的语句。
其中,置信度指的是统计学上的置信度。置信度也叫置信水平,它是指特定个体对待特定命题真实性相信的程度。在本申请实施例中,识别结果的置信度即可以理解为光学字符识别模型的对图片上的文本进行识别所得到的识别结果的可信程度。
需要说明的是,通过OCR模型识别每张商品图片上的文本时,所得到的识别结果中还包括有识别的文字的置信度,对于置信度较低的文字往往会存在识别错误的情况,所以通过置信度可以查找到识别错误的文字进行修改。因此,为了保证文本组合的质量,在本申请实施例中,直接过滤掉文本组合中置信度小于预设置信度的语句。可选地,一个语句的置信度可以是组成该语句的各个文字的置信度的均值。
S403、分别针对每组文本组合,利用GPT模型计算文本组合中各个语句的困惑度,并过滤掉困惑度大于预设困惑度的语句。
在语言处理中,困惑度是用来衡量语言概率模型优劣的一个参数,在本申请实施例中语句的困惑度可以理解为语句在其所处的位置上出现的概率。
在语言模型中,利用确定的文本的困惑度用于评价训练出的语言模型的好与坏,因此相应的在语言模型确定的情况下,文本的困惑度也可以反过来反映文本的质量,因此通过训练好的GPT模型计算文本组合中各个语句的困惑度,然后过滤掉困惑度大于预设困惑度的语句,从而将质量较低的文本过滤掉。
其中,GPT模型(GereratePre-TrainingModel)是一种深度语言模型,主要用于证明大模型以及数据集的有效性等。
S105、针对过滤后得到的每组文本组合,将文本组合中的图片标题与介绍文本进行配对,以确定图片标题是否为介绍文本的总结摘要。
需要说明的是,虽然基于每张商品图片上的文本的位置信息,将每张商品图片上的文本划分为图片标题和介绍文本属于一种大概率事件,完全保证准确地得到图片标题。并且,划分出的介绍文本并不一定是图片标题的介绍内容,所以图片标题并不一定是介绍文本的摘要,因此需要对图片标题与介绍文本进行配对,以确定图片标题是否为介绍文本的总结摘要,对匹配不成功的文本组合也同样需要剔除。
需要说明的是,当图片标题为介绍文本的总结摘要时,两者匹配成功。
例如,同样参见图3所示,从图片上提取到的一组文本组合,其中,文本组合中的图片标题为“不用手动除霜食材受冷均匀”,介绍文本为“风冷无霜系统让冷风均匀分布在冰箱各处立体循食材不易变质,远离结霜从此上一步清洁”,显然所得到的图片标题即为对介绍文本的总结摘要,所以两种相匹配。若提取到的图片标题不是“不用手动除霜食材受冷均匀”,而是“最新一代智能冰箱”,则可见图片标题虽然与介绍文本相关,但其并不是介绍文本的总结摘要,所以两者匹配失败。
可选地,可以根据图片标题与介绍文本中的关键词汇的匹配度,确定文本组合中的图片标题与介绍文本是否配对成功,或者是采用其他的方式进行配对。
可选地,本申请另一实施例中,步骤S105的一种具体实施方式,具体包括:
针对过滤后得到的每个所述文本组合,将文本组合输入预先训练好的配对模型中,得到文本组合对应的配对结果。
其中,配对模型预先利用多组正样本和多组负样本训练得到。一组正样本包括一段输入文本及其对应的总结摘要。一组负样本包括一段输入文本以及对应的随机采样摘要,即随机从输入文本中选取部分文本作为其摘要。
S106、利用配对成功的各组文本组合对预先构建的语言模型的进行生成式文本摘要的预训练,得到预训练语言模型。
其中,预训练过程是使预训练语言模型的编码器对介绍文本进行编码后,解码器进行解码生成图片标题。
需要说明的是,解码器最终的是图片标题中的各个字符对应的概率,即输出指示图片标题的各个字符的概率,因此当输出的概率值足够大时,相当于生成了图片标题。所以预训练过程中就是,当输入一个文本组合的介绍文本后,使得的输出的该文本组合中的图片标题中的各个字符对应的概率仅可能的大。
具体的,预训练过程中,将配对成功的各组文本组合中的介绍文本输入预训练语言模型,通过预训练语言模型的编码器对介绍文本的各个字符进行编码,得到一个隐含特征向量,然后由解码器对隐含特征向量进行解码,得到文本组合中的图片标题中的各个字符的概率,并根据输出的结构对模型进行调整。
本申请实施例提供了一种语言模型的预训练方法,获取多张商品图片,然后通过光学字符识别模型识别每张商品图片上的文本,并确定每张商品图片上的文本的位置信息,分别基于每张商品图片上的文本的位置信息,将每张商品图片上的文本划分为图片标题和介绍文本,并分别过滤掉每组文本组合中不满足预设质量要求的语句,从而可以保证所得到的数据的质量可用于预训练。其中,一组文本组合包括一张所述商品图片上的图片标题以及介绍文本。然后,针对过滤后得到的每组所述文本组合,将文本组合中的所述图片标题与介绍文本进行配对,以确定图片标题是否为介绍文本的总结摘要,从而可以获取大量的输入文本及其对应的总结摘要。最后,利用配对成功的各组所述文本组合对预训练语言模型的进行生成式文本摘要的预训练,得到预训练语言模型。由于,预训练语言模型的预训练过程就是利用介绍文本生成标题,因此与生成式文本摘要的任务接近,因此给其带来较大的提升。并且,最后还需要说明的是,本申请实施例提供的语言模型的预训练方法,同样可以适用于所有的生成式的练语言模型。
基于上述得到的训练语言模型,本申请实施例提供了一种商品信息处理方法,如图5所示,包括:
S501、获取目标商品的目标商品信息。
其中,目标商品信息为属于指定类型的商品信息,即目标商品信息为根据需求指定的与商品相关的信息中的某一类型的信息,例如可以是商品的介绍信息、针对商品的提问问题等。
需要说明的是,在指定目标商品信息之后,需要相应的设置获取目标商品信息。
S502、将目标商品的目标商品信息输入预先训练好的目标语言模型中,通过目标语言模型对目标商品的目标商品信息进行处理,得到目标商品的目标商品信息对应的精简文本信息。
需要说明的是,目标商品信息对应的精简文本信息指的是,就要目标商品信息得到的相较于目标商品信息,更为简短的文本信息。例如,对商品的介绍文本,在得到的介绍文本对应的精简文本信息,可以是介绍文本的摘要信息,或者根据商品的其他信息,得到相应的标题,又或者是根据用户线上针对商品提出的问题,生成该问题对应的简单答案,如图用户输入的问题为“A品牌的B型号的空调的功率是多少?”,此时通过目标语言模型得到该问题对应的精简文本信息可以为一个功率值。
其中,目标语言模型预先利用多个商品的目标商品信息,对预训练语言模型进行训练得到。预训练语言模型预先利用配对成功的多组文本组合对预先构建的语言模型进行预训练得到。一组文本组合包括从一张商品图片上获取到的图片标题和介绍文本组成。文本组合具体的获得方法以及预训练语言模型的具体训练方式,可相应地参考上述方法实施例提供的语言模型的预训练方法,此处不再赘述。
还需要说明的是,在本申请实施例中,在通过文本组合对语言模型进行预训练,得到预训练语言模型后,预训练语言模型已经具有了对文本进行初步处理的能力,所以后续可以根据不同的指定的下游任务,利用相应的数据对预训练语言模型进行训练,从而得到可实现指定的下游任务的语言模型。
可选地,本申请实施例提供了一种目标语言模型的训练方法,如图6所示,包括:
S601、获取多个商品的目标商品信息以及各个商品的目标商品信息对应的预期精简文本信息。
需要说明的是,步骤S601获取的目标商品信息与步骤S501获取的目标商品信息为同类型的信息。
目标商品信息对应的预期精简文本信息即为训练样本对应的标签,具体可以通过人工等方式进行确定。
S602、分别将各个商品的目标商品信息输入预训练语言模型中,得到各个商品的目标商品信息对应的预测精简文本信息。
S603、判断当前得到的预测精简文本信息与预期精简文本信息的误差是否小于预设阈值。
其中,若判断当前得到的预测精简文本信息与预期精简文本信息的误差不小于预设阈值,则执行步骤S604。若判断当前得到的预测精简文本信息与预期精简文本信息的误差小于预设阈值,则执行步骤S605。
S604、基于当前得到的预测精简文本信息与预期精简文本信息的误差对预训练语言模型进行调参。
具体的,可以通过构建损失函数,并基于损失函数以及梯度下降法,调整预训练语言模型中的参数。
需要说明的是,在执行步骤S604之后,针对调参后的预训练语言模型,返回执行步骤S602,以实现对模型的迭代训练,从而得到满足要求的语言模型。
S605、将当前的预训练语言模型确定为目标语言模型。
具体的,当模型输入的结果与真实结果的误差满足要求时,说明模型已训练好,所以将此时的预训练语言模型确定为目标语言模型,用于后续对商品信息进行处理。
本申请另一实施例提供了一种语言模型的预训练装置,如图7所示,包括以下单元:
获取单元701,用于获取多张商品图片。
识别单元702,用于通过光学字符识别模型识别每张商品图片上的文本,并确定每张商品图片上的文本的位置信息。
划分单元703,用于分别基于每张商品图片上的文本的位置信息,将每张商品图片上的文本划分为图片标题和介绍文本。
过滤单元704,用于分别过滤掉每组文本组合中不满足预设质量要求的语句。
其中,一组文本组合包括一张商品图片上的图片标题以及介绍文本。
配对单元705,用于针对过滤后得到的每组文本组合,将文本组合中的图片标题与介绍文本进行配对,以确定图片标题是否为介绍文本的总结摘要。
训练单元706,用于利用配对成功的各组文本组合对预训练语言模型的进行生成式文本摘要的预训练,以使预训练语言模型的编码器对介绍文本进行编码后,解码器进行解码生成图片标题。
可选地,在本申请另一实施例提供的语言模型的预训练装置中,划分单元,如图8所示,包括:
第一确定单元801,用于分别针对每张所述商品图片上的文本,根据所述商品图片上的文本的位置信息,确定出在所述商品图片上满足预设条件的文本。
其中,预设条件为在所述商品图片中对应的段落布置方式为居中布置,并且在所述商品图片上的所有文本中,具有最大的字号。
第二确定单元802,用于将满足所述预设条件的文本确定为商品图片对应的图片标题,以及将商品图片上的其余文本确定为商品图片对应的介绍文本。
可选地,在本申请另一实施例提供的语言模型的预训练装置中,过滤单元,如图9所示,包括:
第一过滤单元901,用于分别基于每组文本组合对应的光学字符识别模型的识别结果中的文本高度,过滤掉每组文本组合中字体高度小于预设高度的语句。
第二过滤单元902,用于分别基于每组文本组合对应的光学字符识别模型的识别结果中的置信度,过滤掉每组文本组合中置信度小于预设置信度的语句。
第三过滤单元903,用于分别针对每组文本组合,利用GPT模型计算文本组合中各个语句的困惑度,并过滤掉困惑度大于预设困惑度的语句。
可选地,在本申请另一实施例提供的语言模型的预训练装置中,配对单元,包括:
配对子单元,用于针对过滤后得到的每个文本组合,将文本组合输入预先训练好的配对模型中,得到文本组合对应的配对结果。
其中,配对模型预先利用多组正样本和多组负样本训练得到。一组正样本包括一段输入文本及其对应的总结摘要;一组负样本包括一段输入文本以及对应的随机采样摘要。
需要说明的是,本申请上述实施例提供的各个单元的具体工作过程,可相应地参考上述方法实施例中的相应的步骤,此处不再赘述。
本申请另一实施例提供了一种商品信息处理装置,如图10所示,包括:
第一获取单元1001,用于获取目标商品的目标商品信息。
其中所述目标商品信息为属于指定类型的商品信息。
输入单元1002,用于将所述目标商品的目标商品信息输入预先训练好的目标语言模型中,通过所述目标语言模型对所述目标商品的目标商品信息进行处理,得到所述目标商品的目标商品信息对应的精简文本信息。
其中,所述目标语言模型预先利用多个商品的目标商品信息,对预训练语言模型进行训练得到。所述预训练语言模型预先利用配对成功的多组文本组合对预先构建的语言模型进行预训练得到。一组所述文本组合包括从一张商品图片上获取到的图片标题和介绍文本组成。
可选地,在本申请另一实施例提供的商品信息处理装置中,还包括:
第二获取单元,用于获取多个商品的目标商品信息以及各个所述商品的目标商品信息对应的预期精简文本信息。
输入单元,用于分别将各个所述商品的目标商品信息输入所述预训练语言模型中,得到各个所述商品的目标商品信息对应的预测精简文本信息。
判断单元,用于判断当前得到的所述预测精简文本信息与所述预期精简文本信息的误差是否小于预设阈值。
调参单元,用于若判断当前得到的所述预测精简文本信息与所述预期精简文本信息的误差不小于预设阈值,则基于当前得到的所述预测精简文本信息与所述预期精简文本信息的误差对所述预训练语言模型进行调参,并针对调参后的所述预训练语言模型,返回执行所述分别将各个所述商品的目标商品信息输入所述预训练语言模型中。
确定单元,用于若判断当前得到的所述预测精简文本信息与所述预期精简文本信息的误差小于预设阈值,则将当前的所述预训练语言模型确定为目标语言模型。
本申请另一实施例提供了一种电子设备,如图11所示,包括:
存储器1101和处理器1102。
其中,存储器1101用于存储程序,处理器1102用于执行存储器1101存储的程序,并且该程序被执行时,具体用于实现如上述任意一个实施例提供的语言模型的预训练方法,或用于实现如上述任意一个实施例提供的商品信息处理方法。
本申请另一实施例提供一种计算机存储介质,用于存储计算机程序,该计算机程序被执行时,用于实现如上述任意一个实施例提供的语言模型的预训练方法,或用于实现如上述任意一个实施例提供的商品信息处理方法。
计算机存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种语言模型的预训练方法,其特征在于,包括:
获取多张商品图片;
通过光学字符识别模型识别每张所述商品图片上的文本,并确定每张所述商品图片上的文本的位置信息;
分别基于每张所述商品图片上的文本的位置信息,将每张所述商品图片上的文本划分为图片标题和介绍文本;
分别过滤掉每组文本组合中不满足预设质量要求的语句;其中,一组所述文本组合包括一张所述商品图片上的所述图片标题以及所述介绍文本;
针对过滤后得到的每组所述文本组合,将所述文本组合中的所述图片标题与所述介绍文本进行配对,以确定所述图片标题是否为所述介绍文本的总结摘要;
利用配对成功的各组所述文本组合对预先构建的语言模型进行生成式文本摘要的预训练,得到预训练语言模型。
2.根据权利要求1所述的方法,其特征在于,所述分别基于每张所述商品图片上的文本的位置信息,将每张所述商品图片上的文本划分为图片标题和介绍文本,包括:
分别针对每张所述商品图片上的文本,根据所述商品图片上的文本的位置信息,确定出在所述商品图片上满足预设条件的文本;其中,所述预设条件为在所述商品图片中对应的段落布置方式为居中布置,并且在所述商品图片上的所有文本中,具有最大的字号;
将在所述满足预设条件的文本确定为所述商品图片对应的图片标题,将所述商品图片上的其余文本确定为所述商品图片对应的介绍文本。
3.根据权利要求1所述的方法,其特征在于,所述分别过滤掉每组文本组合中不满足预设质量要求的语句,包括:
分别基于每组所述文本组合对应的所述光学字符识别模型的识别结果中的文本高度,过滤掉每组所述文本组合中字体高度小于预设高度的语句;
分别基于每组所述文本组合对应的所述光学字符识别模型的识别结果中的置信度,过滤掉每组所述文本组合中置信度小于预设置信度的语句;
分别针对每组所述文本组合,利用GPT模型计算所述文本组合中各个语句的困惑度,并过滤掉困惑度大于预设困惑度的语句。
4.根据权利要求1所述的方法,其特征在于,所述针对过滤后得到的每组所述文本组合,将所述文本组合中的所述图片标题与所述介绍文本进行配对,包括:
针对过滤后得到的每个所述文本组合,将所述文本组合输入预先训练好的配对模型中,得到所述文本组合对应的配对结果;其中,所述配对模型预先利用多组正样本和多组负样本训练得到;一组所述正样本包括一段输入文本及其对应的总结摘要;一组所述负样本包括一段输入文本以及对应的随机采样摘要。
5.一种商品信息处理方法,其特征在于,包括:
获取目标商品的目标商品信息;其中,所述目标商品信息为指定类型的商品信息;
将所述目标商品的目标商品信息输入预先训练好的目标语言模型中,通过所述目标语言模型对所述目标商品的目标商品信息进行处理,得到所述目标商品的目标商品信息对应的精简文本信息;其中,所述目标语言模型预先利用多个商品的目标商品信息,对预训练语言模型进行训练得到;所述预训练语言模型预先利用配对成功的多组文本组合对预先构建的语言模型进行预训练得到;一组所述文本组合包括从一张商品图片上获取到的图片标题和介绍文本组成。
6.根据权利要求5所述的方法,其特征在于,所述目标语言模型的训练方法,包括:
获取多个商品的目标商品信息以及各个所述商品的目标商品信息对应的预期精简文本信息;
分别将各个所述商品的目标商品信息输入所述预训练语言模型中,得到各个所述商品的目标商品信息对应的预测精简文本信息;
判断当前得到的所述预测精简文本信息与所述预期精简文本信息的误差是否小于预设阈值;
若判断当前得到的所述预测精简文本信息与所述预期精简文本信息的误差不小于预设阈值,则基于当前得到的所述预测精简文本信息与所述预期精简文本信息的误差对所述预训练语言模型进行调参,并针对调参后的所述预训练语言模型,返回执行所述分别将各个所述商品的目标商品信息输入所述预训练语言模型中;
若判断当前得到的所述预测精简文本信息与所述预期精简文本信息的误差小于预设阈值,则将当前的所述预训练语言模型确定为目标语言模型。
7.一种语言模型的预训练装置,其特征在于,包括:
获取单元,用于获取多张商品图片;
识别单元,用于通过光学字符识别模型识别每张所述商品图片上的文本,并确定每张所述商品图片上的文本的位置信息;
划分单元,用于分别基于每张所述商品图片上的文本的位置信息,将每张所述商品图片上的文本划分为图片标题和介绍文本;
过滤单元,用于分别过滤掉每组文本组合中不满足预设质量要求的语句;其中,一组所述文本组合包括一张所述商品图片上的所述图片标题以及所述介绍文本;
配对单元,用于针对过滤后得到的每组所述文本组合,将所述文本组合中的所述图片标题与所述介绍文本进行配对,以确定所述图片标题是否为所述介绍文本的总结摘要;
训练单元,用于利用配对成功的各组所述文本组合对预先构建的语言模型的进行生成式文本摘要的预训练,得到预训练语言模型。
8.一种商品信息处理装置,其特征在于,包括:
获取单元,用于获取目标商品的目标商品信息;其中,所述目标商品信息为指定类型的商品信息;
输入单元,用于将所述目标商品信息输入预先训练好的目标语言模型中,通过所述目标语言模型对所述目标商品信息进行处理,得到所述目标商品信息对应的精简信息;其中,所述目标语言模型预先利用多个商品的目标商品信息,对预训练语言模型进行训练得到;所述预训练语言模型预先利用配对成功的多组文本组合对预先构建的语言模型进行预训练得到;一组所述文本组合包括从一张商品图片上获取到的图片标题和介绍文本组成。
9.一种电子设备,其特征在于,包括:
存储器和处理器;
其中,所述存储器用于存储程序;
所述处理器用于执行所述程序,所述程序被执行时,具体用于实现如权利要求1至4任意一项所述的语言模型的预训练方法,或用于实现如权利要求5至6任意一项所述的商品信息处理方法。
10.一种计算机存储介质,其特征在于,用于存储计算机程序,所述计算机程序被执行时,用于实现如权利要求1至4任意一项所述的语言模型的预训练方法,或用于实现如权利要求5至6任意一项所述的商品信息处理方法。
CN202210005974.3A 2022-01-04 2022-01-04 语言模型的预训练方法、商品信息处理方法及相关装置 Pending CN115935579A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210005974.3A CN115935579A (zh) 2022-01-04 2022-01-04 语言模型的预训练方法、商品信息处理方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210005974.3A CN115935579A (zh) 2022-01-04 2022-01-04 语言模型的预训练方法、商品信息处理方法及相关装置

Publications (1)

Publication Number Publication Date
CN115935579A true CN115935579A (zh) 2023-04-07

Family

ID=86653014

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210005974.3A Pending CN115935579A (zh) 2022-01-04 2022-01-04 语言模型的预训练方法、商品信息处理方法及相关装置

Country Status (1)

Country Link
CN (1) CN115935579A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117018616A (zh) * 2023-08-25 2023-11-10 广州市玄武无线科技股份有限公司 一种基于gpt的角色与环境交互控制方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117018616A (zh) * 2023-08-25 2023-11-10 广州市玄武无线科技股份有限公司 一种基于gpt的角色与环境交互控制方法

Similar Documents

Publication Publication Date Title
CN108628971B (zh) 不均衡数据集的文本分类方法、文本分类器及存储介质
CN107291723B (zh) 网页文本分类的方法和装置,网页文本识别的方法和装置
CN106919619B (zh) 一种商品聚类方法、装置及电子设备
CN108269125B (zh) 评论信息质量评估方法及系统、评论信息处理方法及系统
CN110287328B (zh) 一种文本分类方法、装置、设备及计算机可读存储介质
CN111523469B (zh) 一种行人重识别方法、系统、设备及计算机可读存储介质
CN112015721A (zh) 一种基于大数据的电商平台存储数据库的优化方法
CN112507711A (zh) 文本摘要抽取方法及系统
JP2006293767A (ja) 文章分類装置、文章分類方法および分類辞書作成装置
CN115168567B (zh) 一种基于知识图谱的对象推荐方法
CN104850617A (zh) 短文本处理方法及装置
CN114625858A (zh) 一种基于神经网络的政务问答智能回复方法及装置
CN110659352A (zh) 试题考点识别方法及其系统
CN114357206A (zh) 基于语义分析的教育类视频彩色字幕生成方法及系统
CN115935579A (zh) 语言模型的预训练方法、商品信息处理方法及相关装置
CN117194638A (zh) 素材生成方法、模型训练方法、特征提取方法及设备
CN111782789A (zh) 智能问答方法与系统
CN113378557B (zh) 一种基于容错粗糙集的自动关键字提取方法、介质及系统
CN115114396A (zh) 一种语言模型的训练方法、样本数据的构建方法及装置
CN110223206B (zh) 课文专业方向确定方法及系统和解析课件匹配方法及系统
CN112818984A (zh) 标题生成方法、装置、电子设备和存储介质
CN107391674B (zh) 一种新类挖掘方法及装置
CN110717029A (zh) 一种信息处理方法和系统
CN106776529B (zh) 业务情感分析方法及装置
CN112579768A (zh) 一种情感分类模型训练方法、文本情感分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination