CN115019295A

CN115019295A - 模型训练方法、文本行确定方法及装置

Info

Publication number: CN115019295A
Application number: CN202210738482.5A
Authority: CN
Inventors: 赵瑞书
Original assignee: Beijing IQIYI Science and Technology Co Ltd
Current assignee: Beijing IQIYI Science and Technology Co Ltd
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2022-09-06
Anticipated expiration: 2042-06-27

Abstract

本申请实施例提供了一种模型训练方法、装置、电子设备及存储介质。所述方法包括：获取第一样本图像和第二样本图像，所述第一样本图像和所述第二样本图像均为包含文本行的样本图像，所述第一样本图像为模拟的含有多种文本字体的图像；基于所述第一样本图像对待训练字体识别模型进行训练，得到预训练字体识别模型；基于所述第一样本图像和所述第二样本图像对所述预训练字体识别模型进行训练，得到目标字体识别模型。本申请实施例可以提高字体识别模型的识别效果，准确区分图像内的台词文本行和非台词文本行。

Description

模型训练方法、文本行确定方法及装置

技术领域

本申请涉及强化学习技术领域，特别是涉及一种模型训练方法、文本行确定方法及装置。

背景技术

随着经济水平的不断提升，娱乐视频的种类也越来越多，人们可以通过电子设备(如电脑、手机等)观看娱乐视频，以丰富业余生活。针对娱乐视频的提供平台而言，在对该平台内的娱乐视频生成相应的台词的过程中，可以根据不同文本行之间使用的字体差异，有效区分出台词文本行与非台词文本行，在对所有文本行进行过滤时起到重要的作用。

目前，通常是采用文字识别网络识别视频图像内的台词文本行与非台词文本行，在文本行字体识别模型训练中，如果采用的训练样本都是来源于真实场景中的文本行，则每个文本行几乎都含有相同的字体。在进行字符字体属性识别的训练过程中，可通过训练获得每个位置的字符所对应的字体属性，但是由于文本行中所有字符的字体相同，无法有效的通过模型训练获得字符之间的分隔符，会导致模型将预测的字体属性序列中的分隔符误识别为字体，从而导致模型损失函数降低，导致训练的模型的识别效果较差，无法准确区分图像内的台词文本行和非台词文本行。

发明内容

本申请实施例的目的在于提供一种模型训练方法、文本行确定方法、装置、电子设备及存储介质，以结合仿真样本数据与真实样本数据进行两阶段的模型训练，以提高训练的字体识别模型的识别效果，准确区分出图像内的台词文本行和非台词文本行。具体技术方案如下：

在本申请实施的第一方面，首先提供了一种模型训练方法，包括：

获取第一样本图像和第二样本图像，所述第一样本图像和所述第二样本图像均为包含文本行的样本图像，所述第一样本图像为模拟的含有多种文本字体的图像；

基于所述第一样本图像对待训练字体识别模型进行训练，得到预训练字体识别模型；

基于所述第一样本图像和所述第二样本图像对所述预训练字体识别模型进行训练，得到目标字体识别模型。

可选地，所述获取第一样本图像和第二样本图像，包括：

从预设图像库中获取包含有文本行的第二样本图像；

从所述预设图像库中获取不包含文本行的初始图像；

在所述初始图像内添加文本行，生成第一样本图像；在所述第一样本图像中每个文本行内包含多种文本字体。

可选地，在所述第一样本图像中每个文字均标注有第一字体标签，在同一文本行内相邻两种字体之间标注有分隔符；

所述基于所述第一样本图像对待训练字体识别模型进行训练，得到预训练字体识别模型，包括：

将所述第一样本图像输入至所述待训练字体识别模型；

基于所述待训练字体识别模型对所述第一样本图像进行处理，得到所述第一样本图像的包含有分隔符的预测字体标签；

根据所述第一字体标签和所述预测字体标签，计算得到所述待训练字体识别模型的第一损失值；

在所述第一损失值处于第一预设范围内的情况下，将训练后的待训练字体识别模型确定为所述预训练字体识别模型。

可选地，所述根据所述第一字体标签和所述预测字体标签，计算得到所述待训练字体识别模型的第一损失值，包括：

根据所述预测字体标签，确定所述第一样本图像内每个文本行对应的多条字体路径；

根据所述第一字体标签和所述预测字体标签，确定每个文字所属字体的字体概率；

根据每个文字所属字体的字体概率，计算得到所述多条字体路径对应的字体路径概率；

根据所述字体路径概率中的最大字体路径概率，计算得到所述待训练字体识别模型的第一损失值。

可选地，在所述根据所述第一字体标签和所述预测字体标签，计算得到所述待训练字体识别模型的第一损失值之后，还包括：

在所述第一损失值处于第一预设范围之外的情况下，根据所述第一样本图像对训练后的待训练字体识别模型进行训练，直至计算得到的第一损失值处于所述第一预设范围内。

可选地，在所述第一样本图像中每个文字均标注有第二字体标签，在所述第二样本图像中每个文字均标注有第三字体标签，且在同一文本行内相邻两种字体之间标注有分隔符；

所述基于所述第一样本图像和所述第二样本图像对所述预训练字体识别模型进行训练，得到目标字体识别模型，包括：

将所述第一样本图像和所述第二样本图像输入至所述预训练字体识别模型；

基于所述预训练字体识别模型对所述第一样本图像和所述第二样本图像进行处理，得到所述第一样本图像的第一预测字体标签，及所述第二样本图像的包含有分隔符的第二预测字体标签；

根据所述第二字体标签与所述第一预测字体标签、及所述第三字体标签和所述第二预测字体标签，计算得到所述预训练字体识别模型的第二损失值；

在所述第二损失值处于第二预设范围内的情况下，将训练后的预训练字体识别模型确定为所述目标字体识别模型。

可选地，所述根据所述第二字体标签与所述第一预测字体标签、及所述第三字体标签和所述第二预测字体标签，计算得到所述预训练字体识别模型的第二损失值，包括：

根据所述第一预测字体标签，确定所述第一样本图像内每个文本行对应的多条第一字体路径，并根据所述第二预测字体标签，确定所述第二样本图像内每个文本行对应的第二字体路径；

根据所述第二字体标签和所述第一预测字体标签，确定所述第一样本图像内每个文字所属字体的第一字体概率，并根据所述第三字体标签和所述第二预测字体标签，确定所述第二样本图像内每个文字所属字体的第二字体概率；

根据所述第一字体概率，计算得到所述第一字体路径对应的第一字体路径概率，并根据所述第二字体路径概率，计算得到所述第二字体路径对应的第二字体路径概率；

根据所述第一字体路径概率中最大的第一字体路径概率，及所述第二字体路径概率中最大的第二字体路径概率，计算得到所述第二损失值。

可选地，在所述根据所述第二字体标签与所述第一预测字体标签、及所述第三字体标签和所述第二预测字体标签，计算得到所述预训练字体识别模型的第二损失值之后，还包括：

在所述第二损失值处于第二预设范围之外的情况下，根据所述第一样本图像和所述第二样本图像对所述训练后的与训练字体识别模型进行训练，直至计算得到的第二损失值处于所述第二预设范围内。

在本申请实施的第二方面，提供了一种文本行确定方法，包括：

获取待识别图像，所述待识别图像为包含文本行的图像；

将所述待识别图像输入至目标字体识别模型；

基于所述目标字体识别模型对所述待识别图像进行识别处理，得到所述待识别图像中的文本行对应的文本属性序列；

根据所述文本属性序列，确定所述待识别图像内文本行中的台词文本行和非台词文本行。

在本申请实施的第三方面，提供了一种模型训练装置，包括：

样本图像获取模块，用于获取第一样本图像和第二样本图像，所述第一样本图像和所述第二样本图像均为包含文本行的样本图像，所述第一样本图像为模拟的含有多种文本字体的图像；

预训练模型获取模块，用于基于所述第一样本图像对待训练字体识别模型进行训练，得到预训练字体识别模型；

目标识别模型获取模块，用于基于所述第一样本图像和所述第二样本图像对所述预训练字体识别模型进行训练，得到目标字体识别模型。

可选地，所述样本图像获取模块包括：

样本图像获取单元，用于从预设图像库中获取包含有文本行的第二样本图像；

初始图像获取单元，用于从所述预设图像库中获取不包含文本行的初始图像；

样本图像生成单元，用于在所述初始图像内添加文本行，生成第一样本图像；在所述第一样本图像中每个文本行内包含多种文本字体。

所述预训练模型获取模块包括：

第一样本图像输入单元，用于将所述第一样本图像输入至所述待训练字体识别模型；

第一预测字体标签获取单元，用于基于所述待训练字体识别模型对所述第一样本图像进行处理，得到所述第一样本图像的包含有分隔符的预测字体标签；

第一损失值计算单元，用于根据所述第一字体标签和所述预测字体标签，计算得到所述待训练字体识别模型的第一损失值；

预训练模型确定单元，用于在所述第一损失值处于第一预设范围内的情况下，将训练后的待训练字体识别模型确定为所述预训练字体识别模型。

可选地，所述第一损失值计算单元包括：

第一字体路径确定子单元，用于根据所述预测字体标签，确定所述第一样本图像内每个文本行对应的多条字体路径；

第一字体概率确定子单元，用于根据所述第一字体标签和所述预测字体标签，确定每个文字所属字体的字体概率；

第一字体路径概率计算子单元，用于根据每个文字所属字体的字体概率，计算得到所述多条字体路径对应的字体路径概率；

第一损失值计算子单元，用于根据所述字体路径概率中的最大字体路径概率，计算得到所述待训练字体识别模型的第一损失值。

可选地，所述装置还包括：

第一模型训练模块，用于在所述第一损失值处于第一预设范围之外的情况下，根据所述第一样本图像对训练后的待训练字体识别模型进行训练，直至计算得到的第一损失值处于所述第一预设范围内。

所述目标识别模型获取模块包括：

第二样本图像输入单元，用于将所述第一样本图像和所述第二样本图像输入至所述预训练字体识别模型；

第二预测字体标签获取单元，用于基于所述预训练字体识别模型对所述第一样本图像和所述第二样本图像进行处理，得到所述第一样本图像的第一预测字体标签，及所述第二样本图像的包含有分隔符的第二预测字体标签；

第二损失值计算单元，用于根据所述第二字体标签与所述第一预测字体标签、及所述第三字体标签和所述第二预测字体标签，计算得到所述预训练字体识别模型的第二损失值；

目标识别模型确定单元，用于在所述第二损失值处于第二预设范围内的情况下，将训练后的预训练字体识别模型确定为所述目标字体识别模型。

可选地，所述第二损失值计算单元包括：

第二字体路径确定子单元，用于根据所述第一预测字体标签，确定所述第一样本图像内每个文本行对应的多条第一字体路径，并根据所述第二预测字体标签，确定所述第二样本图像内每个文本行对应的第二字体路径；

第二字体概率确定子单元，用于根据所述第二字体标签和所述第一预测字体标签，确定所述第一样本图像内每个文字所属字体的第一字体概率，并根据所述第三字体标签和所述第二预测字体标签，确定所述第二样本图像内每个文字所属字体的第二字体概率；

第二字体路径概率计算子单元，用于根据所述第一字体概率，计算得到所述第一字体路径对应的第一字体路径概率，并根据所述第二字体路径概率，计算得到所述第二字体路径对应的第二字体路径概率；

第二损失值计算子单元，用于根据所述第一字体路径概率中最大的第一字体路径概率，及所述第二字体路径概率中最大的第二字体路径概率，计算得到所述第二损失值。

可选地，所述装置还包括：

第二模型训练模块，用于在所述第二损失值处于第二预设范围之外的情况下，根据所述第一样本图像和所述第二样本图像对所述训练后的与训练字体识别模型进行训练，直至计算得到的第二损失值处于所述第二预设范围内。

在本申请实施的第四方面，提供了一种文本行确定装置，包括：

待识别图像获取模块，用于获取待识别图像，所述待识别图像为包含文本行的图像；

待识别图像输入模块，用于将所述待识别图像输入至目标字体识别模型；

文本属性序列获取模块，用于基于所述目标字体识别模型对所述待识别图像进行识别处理，得到所述待识别图像中的文本行对应的文本属性序列；

台词文本行确定模块，用于根据所述文本属性序列，确定所述待识别图像内文本行中的台词文本行和非台词文本行。

在本申请实施的第五方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述任一项所述的模型训练方法，或者上述文本行确定方法。

在本申请实施的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行上述任一项所述的模型训练方法，或者上述文本行确定方法。

在本申请实施的第七方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据上述任一项所述的模型训练方法，或者上述文本行确定方法。

本申请实施例提供的模型训练方法、文本行确定方法、装置、电子设备及存储介质，通过获取第一样本图像和第二样本图像，第一样本图像和第二样本图像均为包含文本行的样本图像，第一样本图像为模拟的含有多种文本字体的图像。基于第一样本图像对待训练字体识别模型进行训练，得到预训练字体识别模型。基于第一样本图像和第二样本图像对预训练字体识别模型进行训练，得到目标字体识别模型。本申请实施例通过结合仿真样本数据与真实样本数据进行两阶段的模型训练，在仿真样本数据中添加不同字体的文本，在模型训练过程中有效识别出不同字体的字符之间的分隔符，从而可以避免模型将预测的字体属性序列中的分隔符误识别为字体，提高了训练的模型的识别效果，进而可以准确区分图像内的台词文本行和非台词文本行。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种模型训练方法的步骤流程图；

图2为本申请实施例提供的一种样本图像获取方法的步骤流程图；

图3为本申请实施例提供的一种字体识别模型预训练方法的步骤流程图；

图4为本申请实施例提供的一种第一损失值计算方法的步骤流程图；

图5为本申请实施例提供的一种仿真样本的计算路径的示意图；

图6为本申请实施例提供的一种目标字体识别模型训练方法的步骤流程图；

图7为本申请实施例提供的一种第二损失值计算方法的步骤流程图；

图8为本申请实施例提供的一种文本行确定方法的步骤流程图；

图9为本申请实施例提供的一种模型训练装置的结构示意图；

图10为本申请实施例提供的一种文本行确定装置的结构示意图；

图11为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

参照图1，示出了本申请实施例提供的一种模型训练方法的步骤流程图，如图1所示，该模型训练方法可以包括以下步骤：

步骤101：获取第一样本图像和第二样本图像，所述第一样本图像和所述第二样本图像均为包含文本行的样本图像，所述第一样本图像为模拟的含有多种文本字体的图像。

本申请实施例可以应用于结合仿真样本图像和真实样本图像训练字体识别模型的场景中。

在本示例中，第一样本图像和第二样本图像均为包含文本行的样本图像，其中，第一样本图像为模拟的含有多种文本字体的图像，即该第一样本图像为仿真样本图像。

第二样本图像即结合真实源数据得到的图像，即在视频播放平台内随机选取的包含台词文本行的图像。

在需要进行字体识别模型的训练时，可以获取仿真样本图像(即第一样本图像)和真实样本图像(即第二样本图像)，对于仿真样本图像和真实样本图像的获取过程可以结合图2进行如下详细描述。

参照图2，示出了本申请实施例提供的一种样本图像获取方法的步骤流程图，如图2所示，该样本图像获取方法可以包括：步骤201、步骤202和步骤203。

步骤201：从预设图像库中获取包含有文本行的第二样本图像。

在本实施例中，在进行字体识别模型的训练时，可以预设图像库中获取包含有文本行的图像，以作为第二样本图像。具体地，可以采用OCR(Optical CharacterRecognition，光学字符识别)技术对预设图像库中的图像进行一一识别，以识别得到包含有文本行的图像，作为第二样本图像。

步骤202：获取不包含文本行的初始图像。

初始图像是指不包含文本行的图像。

在制作仿真图像时，则可以获取不包含文本行的初始图像，在具体实现中，初始图像可以是预设图像库中提取的图像，如在从预设图像库中筛选第二样本图像时，可以将未选中的图像作为初始图像等。初始图像也可以为从当前拍摄的图像，还可以是从互联网上下载的图像等，具体地，对于初始图像的获取方式可以根据使用需求而定，本实施例对此不加以限制。

在获取到不包含文本行的初始图像之后，执行步骤203。

步骤203：在所述初始图像内添加文本行，生成第一样本图像；在所述第一样本图像中每个文本行内包含多种文本字体。

在获取到不包含文本行的初始图像之后，可以在初始图像内添加文本行(即台词文本行)，以生成第一样本图像。具体地，可以预先生成一幅包含文本行的图像，然后将该图像与初始图像进行图像合成处理，以生成第一样本图像。也可以采用预置图像编辑工具，对初始图像进行处理，以在初始图像内编辑文本行得到第一样本图像等。

在本示例中，在初始图像内添加的台词文本行中每个文本行均包含多种文本字体，即每行内包含多种(两种或两种以上)文本字体，例如，在初始图像内添加的文本行为一行，在该文本行内的字体包括：宋体、黑体、楷体等等。

可以理解地，上述示例仅是为了更好地理解本申请实施例的技术方案而列举的示例，不作为对本实施例的唯一限制。

在获取到第一样本图像和第二样本图像之后，执行步骤102。

步骤102：基于所述第一样本图像对待训练字体识别模型进行训练，得到预训练字体识别模型。

在获取到第一样本图像之后，可以先基于第一样本图像对待训练字体识别模型进行训练，以得到预训练字体识别模型，具体地，可以先使用仿真的第一样本图像对模型进行训练直至模型收敛，从而可以得到预训练字体识别模型。

对于模型的预训练过程可以结合图3进行如下详细描述。

参照图3，示出了本申请实施例提供的一种字体识别模型预训练方法的步骤流程图，如图3所示，该字体识别模型预训练方法可以包括：步骤301、步骤302、步骤303、步骤304和步骤305。

步骤301：将所述第一样本图像输入至所述待训练字体识别模型。

在本实施例中，第一样本图像对应于一个第一字体属性标签，在所述第一样本图像中每个文字均标注有第一字体标签，在同一文本行内相邻两种字体之间标注有分隔符。

在获取到第一样本图像之后，可以将第一样本图像输入至待训练字体识别模型。

在将第一样本图像输入至待训练字体识别模型之后，执行步骤302。

步骤302：基于所述待训练字体识别模型对所述第一样本图像进行处理，得到所述第一样本图像的包含有分隔符的预测字体标签。

预测字体标签是指通过待训练字体识别模型预测得到的第一样本图像内文本行的每个文字属性的标签。

在将第一样本图像输入至待训练字体识别模型之后，可以基于待训练字体识别模型对第一样本图像进行处理，以得到第一样本图像的包含有分隔符的预测字体标签，在预测字体标签中包含预测的第一样本图像内文本行中每个文字的字体(即宋体、楷体、黑体等)，以及两种字体之间的分隔符。

在基于待训练字体识别模型对第一样本图像进行处理，得到第一样本图像的包含有分隔符的预测字体标签之后，执行步骤303。

步骤303：根据所述第一字体标签和所述预测属性标签，计算得到所述待训练字体识别模型的第一损失值。

第一损失值是指在采用仿真样本图像对待训练字体识别模型进行训练时，计算的该待训练字体识别模型的损失值。

在基于待训练字体识别模型对第一样本图像进行处理得到第一样本图像的预测字体属性标签之后，可以根据第一字体属性标签和预测字体属性标签计算得到待训练字体识别模型的第一损失值。对于第一损失值的计算过程可以结合图4进行如下详细描述。

参照图4，示出了本申请实施例提供的一种第一损失值计算方法的步骤流程图，如图4所示，该第一损失指计算方法可以包括：步骤401、步骤402、步骤403和步骤404。

步骤401：根据所述预测字体标签，确定所述第一样本图像内每个文本行对应的多条字体路径。

在本实施例中，在得到第一样本图像的包含有分隔符的预测字体标签之后，可以根据预测字体标签，确定出第一样本图像内每个文本行对应的多条字体路径。如图5所示，图5内每个圆圈表示预测字体标签，第一行内的圆圈表示分隔符“-”的预测字体标签，第二行内的圆圈表示“谢”的预测字体标签，...，第7行内的表示分隔符“-”的预测字体标签，同一列的字体标签相同，不同列的字体标签不同。仿真样本图像内包含的文本为“谢谢你”，计算路径如图5所示，共有7个位置(即四个分隔符和三个文字)预测的字体标签，然后，根据预测的字体标签可以生成多条字体路径，如图5的连线所示。

步骤402：根据所述第一字体标签和所述预测字体标签，确定每个文字所属字体的字体概率。

在得到预测字体标签之后，可以根据第一样本图像内标注的每个文字的第一字体标签和预测的每个文字的预测字体标签，确定每个文字所属字体的字体概率，即每个文字所属字体的概率。在本示例中，每个文字所属字体的字体概率是由模型输出的，在实际训练过程中，真实字体标签(即第一字体标签)可以引导待训练字体识别模型进行学习，以预测得到每个文字所属的多种字体(即每个文字对应于多个预测字体标签)，并输出每个文字所属字体的字体概率。

在计算得到每个文字所属字体的字体概率之后，执行步骤403。

步骤403：根据每个文字所属字体的字体概率，计算得到所述多条字体路径对应的字体路径概率。

在计算得到每个文字所属字体的字体概率之后，可以根据每个文字所属字体的字体概率，计算得到多条字体路径对应的字体路径概率，即将每条字体路径的每个文字所属字体的字体概率相加，得到的概率和值作为该字体路径的字体路径概率。

在根据每个文字所属字体的字体概率计算得到多条字体路径对应的字体路径概率之后，执行步骤404。

步骤404：根据所述字体路径概率中的最大字体路径概率，计算得到所述待训练字体识别模型的第一损失值。

在在根据每个文字所属字体的字体概率计算得到多条字体路径对应的字体路径概率之后，可以根据字体路径概率中的最大字体路径概率，计算得到待训练字体识别模型的第一损失值。具体地，可以将该最大字体路径概率作为待训练字体识别模型的第一损失值。如图5所示，在计算第一损失值时，可以从图5所示所有路径中分别计算该路径对应概率，然后从所有路径中选择一条概率最大的作为最优路径，计算该最优路径每个预测位置的概率的和值以作为待训练字体识别模型的第一损失值等。

在计算得到待训练字体识别模型的第一损失值之后，执行步骤304。

步骤304：在所述第一损失值处于第一预设范围内的情况下，将训练后的待训练字体识别模型确定为所述预训练字体识别模型。

第一预设范围是指预先设置的待训练字体识别模型收敛时的损失值范围。

在计算得到待训练字体识别模型的第一损失值之后，可以判断第一损失值是否处于第一预设范围内。

在第一损失值处于第一预设范围内时，则表示待训练字体识别模型已经收敛，此时，可以将训练的待训练字体识别模型作为预训练字体识别模型。

步骤305：在所述第一损失值处于第一预设范围之外的情况下，根据所述第一样本图像对训练后的待训练字体识别模型进行训练，直至计算得到的第一损失值处于所述第一预设范围内。

在第一损失值未处于第一预设范围内时，则可以继续采用仿真样本图像对待训练字体识别模型进行训练，直至模型收敛(即直至计算得到的第一损失值处于第一预设范围内)。

在训练得到预训练字体识别模型之后，执行步骤103。

步骤103：基于所述第一样本图像和所述第二样本图像对所述预训练字体识别模型进行训练，得到目标字体识别模型。

在训练得到预训练字体识别模型之后，可以基于第一样本图像和第二样本图像对预训练字体识别模型进行训练，以得到目标字体识别模型，即结合仿真样本图像和真实样本图像共同对预训练字体识别模型进行二次训练，直至该预训练字体识别模型收敛，从而可以得到该目标字体识别模型。

对于预训练字体识别模型的训练过程可以结合图6进行如下详细描述。

参照图6，示出了本申请实施例提供的一种目标字体识别模型训练方法的步骤流程图，如图6所示，该目标字体识别模型训练方法可以包括：步骤601、步骤602和步骤603。

步骤601：将所述第一样本图像和所述第二样本图像输入至所述预训练字体识别模型。

在本实施例中，在第一样本图像中每个文字均标注有第二字体标签，在第二样本图像中每个文字均标注有第三字体标签，且同一文本行内相邻两种字体之间标注有分隔符。

在训练得到预训练字体识别模型之后，可以将第一样本图像和第二样本图像输入至预训练字体识别模型，以通过第一样本图像和第二样本图像对预训练字体识别模型进行再次训练。

在将第一样本图像和第二样本图像输入至预训练字体识别模型之后，执行步骤602。

步骤602：基于所述预训练字体识别模型对所述第一样本图像和所述第二样本图像进行处理，得到所述第一样本图像的第一预测字体标签，及所述第二样本图像的包含有分隔符的第二预测字体标签。

第一预测标签是指通过预训练字体识别模型预测得到的第一样本图像的文本行内每个文字所属字体的标签。

第二预测标签是指通过预训练字体识别模型预测得到的第二样本图像的文本行内每个文字所属字体的标签。

在将第一样本图像和第二样本图像输入至预训练字体识别模型之后，可以基于预训练字体识别模型对第一样本图像和第二样本图像进行处理，以得到第一样本图像的第一预测字体标签，及第二样本图像的包含有分隔符的第二预测字体标签。

在得到第一预测字体标签和第二预测字体标签之后，执行步骤603。

步骤603：根据所述第二字体标签与所述第一预测字体标签、及所述第三字体标签和所述第二预测字体标签，计算得到所述预训练字体识别模型的第二损失值。

第二损失值是指采用仿真样本图像和真实样本图像对预训练字体识别模型进行训练时，计算得到的该预训练字体识别模型的损失值。

在得到第一预测字体标签和第二预测字体标签之后，可以根据第二字体标签与第一预测标签、及第三字体标签和第二预测字体标签，计算得到预训练字体识别模型的第二损失值。对于第二损失值的计算过程可以结合图6进行如下详细描述。

参照图7，示出了本申请实施例提供的一种第二损失值计算方法的步骤流程图，如图7所示，该第二损失值计算方法可以包括：步骤701、步骤702、步骤703、步骤704、步骤705和步骤706。

步骤701：根据所述第一预测字体标签，确定所述第一样本图像内每个文本行对应的多条第一字体路径，并根据所述第二预测字体标签，确定所述第二样本图像内每个文本行对应的第二字体路径。

在本实施例中，在得到第一预测字体标签和第二预测字体标签之后，可以根据第一预测字体标签确定出第一样本图像内每个文本行对应的多条第一字体路径，并根据第二预测字体标签确定出第二样本图像内每个文本行对应的第二字体路径。该步骤701的实现方式与上述步骤401的实现方式相似，本实施例在此不再加以赘述。

步骤702：根据所述第二字体标签和所述第一预测字体标签，确定所述第一样本图像内每个文字所属字体的第一字体概率，并根据所述第三字体标签和所述第二预测字体标签，确定所述第二样本图像内每个文字所属字体的第二字体概率。

在得到第一预测字体标签和第二预测字体标签之后，可以根据第二字体标签和第一预测字体标签确定第一样本图像内每个文字所属字体的第一字体概率。并根据第三字体标签和第二预测字体标签确定第二样本图像内每个文字所属字体的第二字体概率。具体地实现过程可以参照上述步骤402的描述，本示例在此不再加以赘述。

在计算得到第一字体概率和第二字体概率之后，执行步骤703。

步骤703：根据所述第一字体概率，计算得到所述第一字体路径对应的第一字体路径概率，并根据所述第二字体路径概率，计算得到所述第二字体路径对应的第二字体路径概率。

在计算得到第一样本图像内每个文字所属字体的第一字体概率之后，可以根据第一样本图像内每个文字所属字体的第一字体概率，计算得到多条第一字体路径的第一字体路径概率，即将每条第一字体路径的每个文字所属字体的第一字体概率相加，得到的概率和值作为该第一字体路径的第一字体路径概率。

在计算得到第二样本图像内每个文字所属字体的第二字体概率之后，可以根据第二样本图像内每个文字所属字体的第二字体概率，计算得到多条第二字体路径的第二字体路径概率，即将每条第二字体路径的每个文字所属字体的第二字体概率相加，得到的概率和值作为该第二字体路径的第二字体路径概率。

在得到第一字体路径概率和第二字体路径概率之后，执行步骤704。

步骤704：根据所述第一字体路径概率中最大的第一字体路径概率，及所述第二字体路径概率中最大的第二字体路径概率，计算得到所述第二损失值。

在得到第一字体路径概率和第二字体路径概率之后，可以获取第一字体路径概率中最大的第一字体路径概率，以及第二字体路径概率中最大的第二字体路径概率，根据最大的第一字体路径概率和最大的第二字体路径概率计算得到预训练字体识别模型的第二损失值。具体地，可以计算最大的第一字体路径概率和最大的第二字体路径概率的和值，并将该和值作为第二损失值。

在计算得到预训练字体识别模型的第二损失值之后，执行步骤705。

步骤705：在所述第二损失值处于第二预设范围内的情况下，将训练后的预训练字体识别模型确定为所述目标字体识别模型。

第二预设范围是指预先设置的预训练字体识别模型收敛时的损失值范围。

在计算得到预训练字体识别模型的第二损失值之后，可以判断该第二损失值是否处于第二预设范围内。

若该第二损失值处于第二预设范围内，则表示预训练字体识别模型收敛，此时可以将训练后的预训练字体识别模型作为目标字体识别模型。

步骤706：在所述第二损失值处于第二预设范围之外的情况下，根据所述第一样本图像和所述第二样本图像对所述训练后的与训练字体识别模型进行训练，直至计算得到的第二损失值处于所述第二预设范围内。

若该第二损失值未处于该第二预设范围内，此时，可以结合第一样本图像和第二样本图像对预训练字体识别模型继续进行训练，直至模型收敛(即直至计算得到的第二损失值处于第二预设范围内)。

在现有技术中，在采用相同字体的样本图像进行字体识别模型的训练时，在训练过程中，仍然可以产生多条字体路径，但是由于采用相同字体，所有的输出位置中，都会更倾向于把该位置预测为字体的标签，从而导致无法预测出来空标签“

”。在将字体预测为对应字体标签的过程中，loss的收敛方向是正确的，但是会使应该出现“

”标签的位置陷入被预测为字体标签的错误情况，且随着训练过程的推进，loss的逐渐降低，所有位置都被预测成字体标签的概率越来越大。采用相同字体预测出来的模型虽然也会有最优路径，但是该路径中应该出现“

”位置，“

”标签所对应的概率会远低于文本行中所存在的字体对应的标签。但如果使用基于C1中已经训练好的字体识别模型，在高仿真的数据中增加真实场景的训练样本，此时，由于模型已经具有良好的文本行字符字体属性的识别能力，在训练样本中加入部分真实场景的样本(同一文本行中只包含一种字体)后，即可提升训练的字体识别模型的文本识别效果。

本申请实施例提供的模型训练方法，通过获取第一样本图像和第二样本图像，第一样本图像和第二样本图像均为包含文本行的样本图像，第一样本图像为模拟的含有多种文本字体的图像。基于第一样本图像对待训练字体识别模型进行训练，得到预训练字体识别模型。基于第一样本图像和第二样本图像对预训练字体识别模型进行训练，得到目标字体识别模型。本申请实施例通过结合仿真样本数据与真实样本数据进行两阶段的模型训练，在仿真样本数据中添加不同字体的文本，在模型训练过程中有效识别出不同字体的字符之间的分隔符，从而可以避免模型将预测的字体属性序列中的分隔符误识别为字体，提高了训练的模型的识别效果，进而可以准确区分图像内的台词文本行和非台词文本行。

参照图8，示出了本申请实施例提供的一种文本行确定方法的步骤流程图，如图8所示，该文本行确定方法可以包括以下步骤：

步骤801：获取待识别图像，所述待识别图像为包含文本行的图像。

本申请实施例可以应用于结合上述实施例训练的目标字体识别模型识别图像内的台词文本行和非台词文本行的场景中。

本实施例可以应用于视频网站中视频图像内进行台词生产的过程中，可以根据视频图像内不同文本行之间使用的字体差异，有效区分出台词文本行与非台词文本行，在对所有文本行进行过滤时，起到了重要的作用。

待识别推向是指用于区分图像内的台词文本行和非台词文本行的图像，该待识别图像为包含文本行的图像，在具体实现中，待识别图像可以为视频播放平台内播放的视频内含有文本行的视频帧图像。

在训练得到的目标字体识别模型之后，在该目标字体识别模型的应用过程中，可以获取包含文本行的待识别图像。

在获取到待识别图像之后，执行步骤802。

步骤802：将所述待识别图像输入至目标字体识别模型。

在获取到待识别图像之后，可以将待识别图像输入至目标字体识别模型，以由目标字体识别模型对待识别图像内的文本行文本的字体进行识别。

在将待识别图像输入至目标字体识别模型之后，执行步骤803。

步骤803：基于所述目标字体识别模型对所述待识别图像进行识别处理，得到所述待识别图像中的文本行对应的文本属性序列。

在将待识别图像输入至目标字体识别模型之后，可以基于目标字体识别模型对待识别图像进行识别处理，以得到待识别图像中的文本行对应的文本属性序列。

在得到待识别图像中的文本行对应的文本属性序列之后，执行步骤204。

步骤804：根据所述文本属性序列，确定所述待识别图像内文本行中的台词文本行和非台词文本行。

在得到待识别图像中的文本行对应的文本属性序列之后，可以根据文本属性序列确定出待识别图像内文本行中的台词文本行和非台词文本行。具体地，在识别出某个文本行内仅包含一种字体时，则确定该文本行为台词文本行。在识别出某个文本行内包含两种或两种以上的字体时，则确定该文本行为非台词文本行，如广告牌文本或弹幕文本等，通过该方式可以有效过滤掉非台词文本行，以产出有效的台词文本。

本申请实施例提供的文本行确定方法，通过获取待识别图像，待识别图像为包含文本行的图像，将待识别图像输入至目标字体识别模型，基于目标字体识别模型对待识别图像进行识别处理，得到待识别图像中的文本行对应的文本属性序列，根据文本属性序列，确定待识别图像内文本行中的台词文本行和非台词文本行。本申请实施例通过结合仿真样本数据与真实样本数据进行两阶段的模型训练得到的目标字体识别模型，可以准确区分图像内的台词文本行和非台词文本行。

参照图9，示出了本申请实施例提供的一种模型训练装置的结构示意图，如图9所示，该模型训练装置900可以包括以下模块：

样本图像获取模块910，用于获取第一样本图像和第二样本图像，所述第一样本图像和所述第二样本图像均为包含文本行的样本图像，所述第一样本图像为模拟的含有多种文本字体的图像；

预训练模型获取模块920，用于基于所述第一样本图像对待训练字体识别模型进行训练，得到预训练字体识别模型；

目标识别模型获取模块930，用于基于所述第一样本图像和所述第二样本图像对所述预训练字体识别模型进行训练，得到目标字体识别模型。

可选地，所述样本图像获取模块910包括：

所述预训练模型获取模块920包括：

可选地，所述第一损失值计算单元包括：

可选地，所述装置还包括：

所述目标识别模型获取模块930包括：

可选地，所述第二损失值计算单元包括：

可选地，所述装置还包括：

本申请实施例提供的模型训练装置，通过获取第一样本图像和第二样本图像，第一样本图像和第二样本图像均为包含文本行的样本图像，第一样本图像为模拟的含有多种文本字体的图像。基于第一样本图像对待训练字体识别模型进行训练，得到预训练字体识别模型。基于第一样本图像和第二样本图像对预训练字体识别模型进行训练，得到目标字体识别模型。本申请实施例通过结合仿真样本数据与真实样本数据进行两阶段的模型训练，在仿真样本数据中添加不同字体的文本，在模型训练过程中有效识别出不同字体的字符之间的分隔符，从而可以避免模型将预测的字体属性序列中的分隔符误识别为字体，提高了训练的模型的识别效果，进而可以准确区分图像内的台词文本行和非台词文本行。

参照图10，示出了本申请实施例提供的一种文本行确定装置的结构示意图，如图10所示，该文本行确定装置1000可以包括以下模块：

待识别图像获取模块1010，用于获取待识别图像，所述待识别图像为包含文本行的图像；

待识别图像输入模块1020，用于将所述待识别图像输入至目标字体识别模型；

文本属性序列获取模块1030，用于基于所述目标字体识别模型对所述待识别图像进行识别处理，得到所述待识别图像中的文本行对应的文本属性序列；

本申请实施例提供的文本行确定装置，通过获取待识别图像，待识别图像为包含文本行的图像，将待识别图像输入至目标字体识别模型，基于目标字体识别模型对待识别图像进行识别处理，得到待识别图像中的文本行对应的文本属性序列，根据文本属性序列，确定待识别图像内文本行中的台词文本行和非台词文本行。本申请实施例通过结合仿真样本数据与真实样本数据进行两阶段的模型训练得到的目标字体识别模型，可以准确区分图像内的台词文本行和非台词文本行。

本申请实施例还提供了一种电子设备，如图11所示，包括处理器1101、通信接口1102、存储器1103和通信总线1104，其中，处理器1101，通信接口1102，存储器1103通过通信总线1104完成相互间的通信，

存储器1103，用于存放计算机程序；

处理器1101，用于执行存储器1103上所存放的程序时，实现如下步骤：

可选地，所述获取第一样本图像和第二样本图像，包括：

从预设图像库中获取包含有文本行的第二样本图像；

从所述预设图像库中获取不包含文本行的初始图像；

将所述第一样本图像输入至所述待训练字体识别模型；

处理器1101，用于执行存储器1103上所存放的程序时，还可以实现如下步骤：

获取待识别图像，所述待识别图像为包含文本行的图像；

将所述待识别图像输入至目标字体识别模型；

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的模型训练方法，或者上述实施例中的文本行确定方法。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的模型训练方法，或者上述实施例中的文本行确定方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取第一样本图像和第二样本图像，包括：

从预设图像库中获取包含有文本行的第二样本图像；

从所述预设图像库中获取不包含文本行的初始图像；

3.根据权利要求1所述的方法，其特征在于，在所述第一样本图像中每个文字均标注有第一字体标签，在同一文本行内相邻两种字体之间标注有分隔符；

将所述第一样本图像输入至所述待训练字体识别模型；

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一字体标签和所述预测字体标签，计算得到所述待训练字体识别模型的第一损失值，包括：

5.根据权利要求3所述的方法，其特征在于，在所述根据所述第一字体标签和所述预测字体标签，计算得到所述待训练字体识别模型的第一损失值之后，还包括：

6.根据权利要求1所述的方法，其特征在于，在所述第一样本图像中每个文字均标注有第二字体标签，在所述第二样本图像中每个文字均标注有第三字体标签，且在同一文本行内相邻两种字体之间标注有分隔符；

7.根据权利要求6所述的方法，其特征在于，所述根据所述第二字体标签与所述第一预测字体标签、及所述第三字体标签和所述第二预测字体标签，计算得到所述预训练字体识别模型的第二损失值，包括：

8.根据权利要求6所述的方法，其特征在于，在所述根据所述第二字体标签与所述第一预测字体标签、及所述第三字体标签和所述第二预测字体标签，计算得到所述预训练字体识别模型的第二损失值之后，还包括：

9.一种文本行确定方法，其特征在于，包括：

获取待识别图像，所述待识别图像为包含文本行的图像；

将所述待识别图像输入至目标字体识别模型；

10.一种模型训练装置，其特征在于，包括：

11.一种文本行确定装置，其特征在于，包括：

12.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的模型训练方法，或者权利要求9所述的文本行确定方法。

13.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的模型训练方法，或者权利要求9所述的文本行确定方法。

14.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的模型训练方法，或者权利要求9所述的文本行确定方法。