CN114925700A

CN114925700A - 用于文本检测的模型训练方法、装置、计算机设备及介质

Info

Publication number: CN114925700A
Application number: CN202210608453.7A
Authority: CN
Inventors: 蒋宏达; 陈家豪; 徐亮
Original assignee: OneConnect Financial Technology Co Ltd Shanghai
Current assignee: OneConnect Financial Technology Co Ltd Shanghai
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2022-08-19

Abstract

本发明涉及人工智能技术领域，尤其涉及一种用于文本检测的模型训练方法、装置、计算机设备及介质。该方法将训练文本输入模板预测模型得到预训练模板，并确定预训练模板与多个人工模板的相似度最大值为训练参考值，将训练文本与预训练模板拼接为预检测文本，输入文本检测模型，得到预检测结果，根据预检测结果、标注以及训练参考值，训练模板预测模型，再将训练文本输入训练好的模板预测模型，将输出的预测模板与训练文本拼接为检测文本，并输入文本检测模型，得到检测结果，根据检测结果和标注，训练文本检测模型，得到训练好的文本检测模型，采用预测模板能够有效地提高文本检测模型的训练效率和准确性，以及文本检测模型的泛化能力。

Description

用于文本检测的模型训练方法、装置、计算机设备及介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种用于文本检测的模型训练方法、装置、计算机设备及介质。

背景技术

目前，随着人工智能技术的发展，原有的人工检测可以由机器检测替代，以提高检测的效率。对于文本构成的电子文件的文本检测属于机器检测中的一个重要应用场景，文本检测需要依靠相应的文本检测模型进行识别、分类和判别等，并最终输出检测结果。文本检测模型可以是基于神经网络的模型，该模型需要经过相应的训练才能够准确地对文本进行检测，现有的文本检测模型在训练时以预设人工模板与文本样本拼接的文本作为训练样本，以文本样本对应的答案作为训练样本的标签，将训练样本输入文本检测模型后，根据文本检测模型的输出结果与标签计算损失函数，并不同修改模型中的参数直至损失函数收敛。

然而，文本检测场景下文本信息内容较为复杂，针对不同的场景，需要设置相应的人工模板，训练样本的构建成本较高，且由于人工模板形式固定，即使为各个文本样本均构建对应的人工模板进行训练，也会导致训练得到的文本检测模型的泛化能力较差。因此，如何降低模型的训练成本并提高模型的泛化能力成为亟待解决的问题。

发明内容

有鉴于此，本发明实施例提供了一种用于文本检测的模型训练方法，以解决训练成本较高且训练得到的模型泛化能力较差的问题。

第一方面，本发明实施例提供一种用于文本检测的模型训练方法，所述模型训练方法包括：

将已知标注的训练文本输入模板预测模型得到预训练模板后，将所述预训练模板与N个人工模板进行相似度计算，确定计算结果的最大值为训练参考值，N为大于零的整数；

将所述训练文本与所述预训练模板拼接构成的预检测文本，输入预训练好的文本检测模型，得到预检测结果；

根据所述预检测结果与所述训练文本的标注的比较结果，以及所述训练参考值，更新所述模板预测模型的参数，迭代直至收敛，得到训练好的模板预测模型；

将所述训练文本输入所述训练好的模板预测模型，输出的预测模板与所述训练文本拼接构成检测文本，并将所述检测文本输入预训练好的文本检测模型，得到检测结果；

根据所述检测结果与所述训练文本的标注的比较结果，更新所述文本检测模型的参数，迭代直至收敛，得到训练好的文本检测模型。

第二方面，本发明实施例提供一种用于文本检测的模型训练装置，所述模型训练装置包括：

参考值计算模块，用于将已知标注的训练文本输入模板预测模型得到预训练模板后，将所述预训练模板与N个人工模板进行相似度计算，确定计算结果的最大值为训练参考值，N为大于零的整数；

预检测模块，用于将所述训练文本与所述预训练模板拼接构成的预检测文本，输入预训练好的文本检测模型，得到预检测结果；

预测模型训练模块，用于根据所述预检测结果与所述训练文本的标注的比较结果，以及所述训练参考值，更新所述模板预测模型的参数，迭代直至收敛，得到训练好的模板预测模型；

检测模块，用于将所述训练文本输入所述训练好的模板预测模型，输出的预测模板与所述训练文本拼接构成检测文本，并将所述检测文本输入预训练好的文本检测模型，得到检测结果；

检测模型训练模块，用于根据所述检测结果与所述训练文本的标注的比较结果，更新所述文本检测模型的参数，迭代直至收敛，得到训练好的文本检测模型。

第三方面，本发明实施例提供一种计算机设备，所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的模型训练方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的模型训练方法。

本发明实施例与现有技术相比存在的有益效果是：

本发明将已知标注的训练文本输入模板预测模型得到预训练模板后，将预训练模板与N个人工模板进行相似度计算，确定计算结果的最大值为训练参考值，将训练文本与预训练模板拼接构成的预检测文本，输入预训练好的文本检测模型，得到预检测结果，根据预检测结果与训练文本的标注的比较结果，以及训练参考值，更新模板预测模型的参数，迭代直至收敛，得到训练好的模板预测模型，将训练文本输入训练好的模板预测模型，输出的预测模板与训练文本拼接构成检测文本，并将检测文本输入预训练好的文本检测模型，得到检测结果，根据检测结果与训练文本的标注的比较结果，更新文本检测模型的参数，迭代直至收敛，得到训练好的文本检测模型，采用预测模板模型对模板进行预测，根据预测模板与训练文本进行文本检测模型的训练，避免设计固定模板，降低了模板设计的时间成本，能够有效地提高文本检测模型的训练效率，在训练检测模型之前还对预测模板模型进行训练，提高模板泛化性的同时保证了模板预测的准确性，从而提高后续文本检测模型训练的准确性和文本检测模型的泛化能力。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的一种用于文本检测的模型训练方法的一应用环境示意图；

图2是本发明实施例一提供的一种用于文本检测的模型训练方法的流程示意图；

图3是本发明实施例二提供的一种用于文本检测的模型训练方法的流程示意图；

图4是本发明实施例三提供的一种用于文本检测的模型训练装置的结构示意图；

图5是本发明实施例四提供的一种计算机设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

应当理解，当在本发明说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本发明说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本发明说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本发明说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本发明的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

应理解，以下实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

为了说明本发明的技术方案，下面通过具体实施例来进行说明。

本发明实施例一提供的一种用于文本检测的模型训练方法，可应用在如图1的应用环境中，其中，客户端与服务端进行通信。其中，客户端包括但不限于掌上电脑、桌上型计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、云端终端设备、个人数字助理(personal digital assistant，PDA)等终端设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

参见图2，是本发明实施例一提供的一种用于文本检测的模型训练方法的流程示意图，上述模型训练方法可以应用于图1中的客户端，客户端对应的计算机设备内包含模板预测模型和文本检测模型的模型架构，模型架构的搭建可以采用TensorFlow、Pytorch等机器学习框架实现，客户端通过访问服务端获取已知标注的训练文本、人工模板等数据，以进行模板预测模型和文本检测模型的训练。如图2所示，该模型训练方法可以包括以下步骤：

步骤S201，将已知标注的训练文本输入模板预测模型得到预训练模板后，将预训练模板与N个人工模板进行相似度计算，确定计算结果的最大值为训练参考值。

其中，N为大于零的整数，训练文本可以是指语音转化得到的文本、手写字符识别得到的文本和印刷字符文本等，标注为训练文本对应的类别标识，标识具体是训练文本的期望输出，类别通常包括“是”和“不是”，类别标识可以是采用符号、数字和独热编码等表示。人工模板可以是指人为构建的包含模板字段的模板，模板字段通常包括提示字段和遮挡字段，遮挡字段可以用[mask]表示，遮挡字段用于引导文本检测模型在该遮挡字段所在模板中的位置处输出检测信息，提示字段可以是指自然语言中的字和词语等，在本实施例中，模板预测模型采用卷积神经网络模型。

具体地，上述模板预测模型包括预测编码器和预测解码器，在训练过程中，预测编码器的输入量为训练文本，预测编码器的输出量为训练文本对应的训练特征张量，预测解码器的输入量为上述训练特征张量，输出量为预训练模板。进一步地，若预测编码器的结构固定，仅能够接收固定尺寸的输入量，则需要对训练文本的数据格式进行统一，以所有训练文本的最大尺寸为标准尺寸，对任一个训练文本，在该训练文本的末尾补0或空白字符，直到该训练文本的尺寸与标准尺寸相同。

举例说明，若一训练样本的内容为“保险业务只能网上办理”，包含10个字符，而标准尺寸为12个字符，则模板预测模型中预测编码器的输入量应为“保险业务只能网上办理φφ”，其中φ用于代表空白字符，预测编码器输出的训练特征张量以F表示，将F输入预测解码器，输出预训练模板，例如，预训练模板的形式可以是“这句话”“是”“[mask]”“的”。

在一实施方式中，模板预测模型还可以是全卷积神经网络模型、长短期记忆网络模型等。

可选的是，将预训练模板与N个人工模板进行相似度计算，确定计算结果的最大值为训练参考值包括：

使用预训练好的语义模型，提取预训练模板的预测词向量以及N个人工模板的人工词向量；

计算预测词向量与每个人工词向量的余弦相似度，确定N个余弦相似度中的最大值为训练参考值。

其中，语义模型可采用Word2Vec、GloVe等模型进行自然语言处理，能够将模板转化为词向量表征即可。词向量是指词典中的单词或短语被映射到实数的向量，具体表示可以是指多维矩阵，预测词向量是指预训练模板对应的词向量，人工词向量是指人工模板对应的词向量。

具体地，余弦相似度的计算方法为

其中，S_i为第i个人工模板对应的人工词向量与预训练模板对应的预测词向量的余弦相似度，S_i的值域范围为[0，1]，A_i为第i个人工模板对应的人工词向量，B为预训练模板对应的预测词向量，|A_i|为第i个人工模板对应的人工词向量的模，|B|为预训练模板对应的预测词向量的模。

本实施例采用余弦相似度进行相似度的计算，并确定N个余弦相似度中的最大值为训练参考值，以控制训练参考值在[0，1]范围内，能够省略归一化步骤，避免了归一化步骤导致归一化后的训练参考值偏差过大，从而影响到后续训练过程。

上述将已知标注的训练文本输入模板预测模型得到预训练模板后，预训练模板与N个人工模板进行相似度计算，确定计算结果的最大值为训练参考值步骤，通过计算预训练模板与人工模板的相似度，得到训练参考值，便于在后续训练中通过训练参考值指导模板预测模型的训练，以监督模板预测模型输出的模板与人工模板足够相似，保证了预测模板对文本检测任务的有效性。

步骤S202，将训练文本与预训练模板拼接构成的预检测文本，输入预训练好的文本检测模型，得到预检测结果。

其中，训练文本与预训练模板的拼接方式可以是指联结，即将预训练模板以联结方式拼接在训练文本尾端。

文本检测模型可以是指分类模型，分类模型可以采用深度神经网络、卷积神经网络等，预训练是指对文本检测模型采用小批量的样本和标注进行预先训练，以避免出现未经预训练的文本检测模型输出的结果与文本检测任务关联性较差的情况，预检测结果是指预检测文本输入文本检测模型后，文本检测模型输出的与预检测文本对应的输出量。

在一实施方式中，上述文本检测模型包括文本特征编码器和全连接层，文本特征编码器起到提取输入量特征的作用，文本特征编码器的输出为文本特征张量，全连接层起到将文本特征张量映射到输出空间的作用，输出空间也即分类类别空间，上述文本检测模型的预训练样本可以是由上述训练文本与上述人工模板拼接构成的，但为避免文本检测模型出现过拟合，建议采用其他同类型文本与其他人工模板拼接构成预训练样本，以预训练样本中的文本所对应的人为标注作为预训练标注，标注通常为独热编码，例如[0，1]和[1，0]，根据预训练样本输入文本检测模型得到的输出量与预训练标注计算交叉熵损失函数，以交叉熵损失函数为依据，采用梯度下降法反向更新文本检测模型的参数，直至交叉熵损失函数收敛，得到预训练好的文本检测模型。

上述将训练文本与预训练模板拼接构成的预检测文本，输入预训练好的文本检测模型，得到预检测结果步骤，能够获取包含预训练模板的预检测文本对应的预检测结果，进而用于后续在参数更新时引导预训练模板的预测方向为提高其应用于文本检测任务中的效果。

步骤S203，根据预检测结果与训练文本的标注的比较结果，以及训练参考值，更新模板预测模型的参数，迭代直至收敛，得到训练好的模板预测模型。

其中，比较结果可以是指比较预检测结果是否与标注相同的结果，比较结果包括相同和不相同，模板预测模型的参数可以是指上述预测编码器和预测解码器的神经元权重参数。

在更新模板预测模型的参数时，需要对这部分参数的更新量进行计算，参数更新量的计算可以采用随机梯度下降优化算法、批量梯度下降算法、动量优化算法、自适应学习率优化算法等优化算法，在计算得到相应的参数更新量后，使用Dropout策略来提高训练效率，该策略可以避免模型过拟合，并增强模型的泛化能力。

可选的是，预检测结果包括文本预检测类别和对应的预检测置信度；

根据预检测结果与训练文本的标注的比较结果，以及训练参考值，更新模板预测模型的参数，迭代直至收敛，得到训练好的模板预测模型包括：

将文本预检测类别与训练文本的标注进行比较，得到第一比较结果，第一比较结果包括相同和不相同；

根据第一比较结果，确定预训练指标值，第一比较结果为相同时，预训练指标值为对应的预检测置信度，第一比较结果为不相同时，预训练指标值为第一预设值；

根据训练参考值和预训练指标值更新模板预测模型的参数，迭代直至收敛，得到训练好的模板预测模型。

其中，置信度可以是指输出结果属于各类别的概率，预检测置信度为将预检测模板输入文本检测模型后，输出的最大的类别置信度，文本预检测类别为最大的类别置信度对应的类别，类别可以是指“是”和“不是”，对应的表示可以为独热编码，例如“是”表示为[0，1]，“不是”表示为[1，0]，比较结果相同即为文本预检测类别对应的独热编码与标注对应的独热编码一致，比较结果不相同即为文本预检测类别对应的独热编码与标注对应的独热编码不一致，预训练指标值可以是指用于计算模板预测模型参数的更新量的参量，第一预设值在本实施例中设置为0.01，实施者可根据实际情况调整该第一预设值，但应保证第一预设值尽可能接近0，以避免参数更新效果较差的情况。

本实施例采用训练参考值和预训练指标值进行模板预测模型的参数更新，能够为模板预测模型参数更新提供方向，从而避免参数向错误的方向更新，也一定程度地避免了参数更新时陷入局部最优的情况。

可选的是，根据训练参考值和预训练指标值更新模板预测模型的参数，迭代直至收敛，得到训练好的模板预测模型包括：

根据训练参考值和预训练指标值计算第一损失函数，以第一损失函数为依据，采用梯度下降法反向更新模板预测模型的参数，迭代直至第一损失函数收敛，得到训练好的模板预测模型，其中，第一损失函数具体为：

L₁＝k₁(s-1)²+k₂(p₁-1)²

其中，L₁为第一损失函数，s为训练参考值，值域为[0，1]，p₁为预训练指标值，值域为[0，1]，k₁为第一权重，k₂为第二权重。

具体地，模板预测模型基于反向传播进行模型参数的更新，更新的学习率设置为0.05，实施者可根据实际情况在[0，1]之间调整学习率，以达到较好的训练效果，且采用随机梯度下降法进行参数更新量的计算，随机梯度下降法是指任取一个训练样本，然后利用这个样本对应的训练参考值和预训练指标值所计算的第一损失函数进行更新，能够快速计算梯度，在噪声较小的情况下能够令损失函数很好的收敛。

由于训练参考值是N个余弦相似度中的最大值，余弦相似度的值域为[0，1]，则训练参考值的值域为[0，1]，预训练指标值为预检测置信度或第一预设值，第一预设值的设置范围为[0，1]，预检测置信度需要经过Softmax函数进行归一化，归一化后的值域为[0，1]，则预训练的指标值值域为[0，1]，则对于(s-1)²项，训练参考值s越小，(s-1)²项越大，且随着训练参考值的下降，(s-1)²项增大的速率也越快，需要说明的是第一权重k₁为正数，以确保训练参考值越小，第一损失函数越大，在本实施例中第一权重k₁设置为9，对于(p₁-1)²项，预训练指标值p₁越小，(p₁-1)²项越大，且随着预训练指标值的下降，(p₁-1)²项增大的速率也越快，需要说明的是第二权重k₂也为正数，以确保预训练指标值越小，第一损失函数越大，在本实施例中第二权重k₂设置为10，第一权重和第二权重设置不一致的目的为，引导模板预测模型的训练相较于输出与人工模板相似的预测模板而言，更倾向于输出令文本检测结果更准确的预测模板，实施者可以根据实际需求调整第一权重和第二权重的值。

本实施例构建了第一损失函数，该第一损失函数能够引导模板预测模型训练时的参数更新方向，且梯度计算速度较快，从而提高了训练效率。

上述根据预检测结果与训练文本的标注的比较结果，以及训练参考值，更新模板预测模型的参数，迭代直至收敛，得到训练好的模板预测模型步骤，能够使模板预测模型输出与人工模板相似且令文本检测结果更准确的预测模板，保证了预测模板的实用性，也提高了后续文本检测模型训练的效率。

步骤S204，将训练文本输入训练好的模板预测模型，输出的预测模板与训练文本拼接构成检测文本，并将检测文本输入预训练好的文本检测模型，得到检测结果。

其中，训练文本与训练模板的拼接方式可以是指联结，即将训练模板以联结方式拼接在训练文本尾端，检测结果是指检测文本输入文本检测模型后，文本检测模型输出的与检测文本对应的输出量。

具体地，为扩充文本检测模型训练的训练样本数量，可以将一段训练文本与不同预测模板进行拼接，也可以将一个预测模板与不同训练文本进行拼接，从而得到足够多段检测文本，减少了构建训练集的时间。

上述将训练文本输入训练好的模板预测模型，输出的预测模板与训练文本拼接构成检测文本，并将检测文本输入预训练好的文本检测模型，得到检测结果步骤，采用预测模板与训练文本拼接构成的检测文本输入文本检测模型，即在保证预测模板对文本检测任务起正向效果的情况下，扩充了训练样本数量，能够提高文本检测模型的泛化能力，且无需人为构建人工模板，提高了训练效率。

步骤S205，根据检测结果与训练文本的标注的比较结果，更新文本检测模型的参数，迭代直至收敛，得到训练好的文本检测模型。

其中，比较结果可以是指比较检测结果是否与标注相同的结果，比较结果包括相同和不相同，文本检测模型的参数可以是指上述文本特征编码器和全连接层的神经元权重参数。

在更新文本检测模型的参数时，需要对这部分参数的更新量进行计算，参数更新量的计算可以采用随机梯度下降优化算法、批量梯度下降算法、动量优化算法、自适应学习率优化算法等优化算法，在计算得到相应的参数更新量后，使用Dropout策略来提高训练效率，该策略可以避免模型过拟合，并增强模型的泛化能力。

可选的是，检测结果包括文本检测类别和对应的检测置信度；

根据检测结果与训练文本的标注的比较结果，更新模板预测模型的参数，迭代直至收敛，得到训练好的模板预测模型包括：

将文本检测类别与训练文本的标注进行比较，得到第二比较结果，第二比较结果包括相同和不相同；

根据第二比较结果，确定训练指标值，第二比较结果为相同时，训练指标值为对应的检测置信度，第二比较结果为不相同时，训练指标值为第二预设值；

根据训练指标值更新模板预测模型的参数，迭代直至收敛，得到训练好的文本检测模型。

其中，检测置信度为将训练文本输入文本检测模型后，输出的最大的类别置信度，文本检测类别为最大的类别置信度对应的类别，类别可以是指“是”和“不是”，对应的表示可以为独热编码，例如“是”表示为[0，1]，“不是”表示为[1，0]，比较结果相同即为文本检测类别对应的独热编码与标注对应的独热编码一致，比较结果不相同即为文本检测类别对应的独热编码与标注对应的独热编码不一致，训练指标值可以是指用于计算文本检测模型参数的更新量的参量，第二预设值在本实施例中设置为0.01，实施者可根据实际情况调整该第二预设值，但应保证第二预设值尽可能接近0，以避免参数更新效果较差的情况。

本实施例采用训练指标值进行文本检测模型的参数更新，能够为文本检测模型模型参数更新提供方向，从而避免参数向错误的方向更新，也一定程度地避免了参数更新时陷入局部最优的情况。

可选的是，根据训练指标值更新模板预测模型的参数，迭代直至收敛，得到训练好的文本检测模型包括：

根据训练指标值计算第二损失函数，以第二损失函数为依据，采用梯度下降法反向更新模板预测模型的参数，迭代直至第二损失函数收敛，得到训练好的模板预测文本检测模型，其中，第二损失函数具体为：

L₂＝k₃(p₂-1)²

其中，L₂为第二损失函数，p₂为训练指标值，值域为[0,1]，k₃为第三权重值。

具体地，文本检测模型基于反向传播进行模型参数的更新，更新的学习率设置为0.05，实施者可根据实际情况在[0，1]之间调整学习率，以达到较好的训练效果，且采用随机梯度下降法进行参数更新量的计算。

由于训练指标值为检测置信度或第二预设值，第二预设值的设置范围为[0，1]，检测置信度需要经过Softmax函数进行归一化，归一化后的值域为[0，1]，则训练指标值的值域为[0，1]，训练指标值p₂越小，(p₂-1)²项越大，且随着训练指标值的下降，(p₁-1)²项增大的速率也越快，需要说明的是第三权重k₃也为正数，以确保预训练指标值越小，第一损失函数越大，在本实施例中第三权重k₃设置为10，实施者可以根据实际需求调整第三权重的值。

本实施例构建了第二损失函数，该第二损失函数能够引导文本检测模型训练时的参数更新方向，且梯度计算速度较快，从而提高了文本检测模型的训练效率。

上述根据检测结果与训练文本的标注的比较结果，更新文本检测模型的参数，迭代直至收敛，得到训练好的文本检测模型步骤，能够通过训练指标值引导模型参数的更新，提高了文本检测模型训练的效率且提高了文本检测模型的准确率。

本实施例采用预测模板模型对模板进行预测，根据预测模板与训练文本进行文本检测模型的训练，避免设计固定模板，降低了模板设计的时间成本，能够有效地提高文本检测模型的训练效率，在训练检测模型之前还对预测模板模型进行训练，提高模板泛化性的同时保证了模板预测的准确性，从而提高后续文本检测模型训练的准确性和文本检测模型的泛化能力。

参见图3，是本发明实施例二提供的一种用于文本检测的模型训练方法的流程示意图，该模型训练方法中预测词向量与每个人工词向量的余弦相似度可以直接根据预测词向量和人工词向量进行计算得到，也可以先将预测词向量进行更新，再根据更新后的预测词向量和人工词向量进行计算。

其中，根据预测词向量和人工词向量进行余弦相似度计算时，实施者可参照步骤S201的计算方法，在此不再赘述。

先将预测词向量进行更新，再根据更新后的预测词向量和人工词向量进行余弦相似度计算时，预测词向量包括M个预测词项，人工词向量包括K个人工词项，其中，M和K均为大于零的整数，计算方法包括以下步骤：

步骤S301，针对任一人工词向量，采用最大权匹配算法，将预测词向量的预测词项与人工词向量的人工词项进行匹配，得到对应预测词项的匹配人工词项。

步骤S302，提取所有匹配人工词项在人工词向量中的位置顺序，按照位置顺序更新对应预测词项在预测词向量中的位置顺序，得到更新的预测词向量。

步骤S303，计算更新后的预测词向量与更新所使用的人工词向量的余弦相似度。

本实施例中，词项可以是指组成词向量的单元，通常一个词项可以表示为词向量对应的多维矩阵中的一个维度的向量，预测词项可以是指预测词向量的组成单元。

人工词项可以是指人工词向量的组成单元，最大权匹配算法可以是指将两个子集内的顶点进行匹配的算法，例如Kuhn-Munkras(KM)匹配算法、匈牙利匹配算法等，匹配人工词项可以是指根据最大权匹配算法的匹配结果确定的预测词项对应的人工词项。

上述位置顺序为相对位置顺序，即词项之间的相对位置关系。例如，词向量有词项X、词项Y和词项Z组成，具体为XZY，针对词项X和词项Y的相对位置顺序，是指词项X相对于词项Y在词项Y的左侧。

按照位置顺序更新对应预测词项在预测词向量中的位置顺序即为将各预测词项在预测词向量中的位置顺序调整为与各预测词项对应的人工词项在人工词向量中的位置顺序一致。

更新所使用的人工词向量是指为预测词向量更新提供位置顺序的人工词向量，显然，在预测词向量与每个人工词向量计算余弦相似度之前，都需要根据不同的人工词向量进行不同的更新，在本实施例中，在预测词向量与每个人工词向量计算余弦相似度时，可以采用前一次计算时更新后的预测词向量进行后一次计算时的更新。

在一实施方式中，在预测词向量与每个人工词向量计算余弦相似度时，也可以采用未更新的预测词向量进行每一次计算时的更新。

具体地，将预测词项组成的集合作为第一集合，将人工词项组成的集合作为第二集合，集合内的每个词项即为一个匹配顶点，为分属不同集合的两匹配顶点之间分配权重，上述权重可以是词项之间的相似度，相似度可以采用余弦相似度、欧式距离等计算方式获取，匹配结果为多个匹配对，每个匹配对包含一个预测词项和一个人工词项，匹配对的个数为M和K中的较小值，获取所有匹配对中的人工词项的位置顺序。例如按照从左至右的顺序，可以以匹配对的标识表示位置顺序，设共有三个匹配对，则位置顺序表示为第二匹配对、第一匹配对、第三匹配对，按照上述位置顺序，更新对应预测词项在预测词向量中的位置顺序，即第二匹配对中的预测词项在第一匹配对中的预测词项和第三匹配对中的预测词项的左侧，第一匹配对中的预测词项在第三匹配对中的预测词项的左侧。

在一实施方式中，位置顺序可以是绝对位置顺序，即词项均对应于固定位置。例如，词向量有词项X、词项Y和词项Z组成，具体为XZY，针对词项X和词项Y的绝对位置关系，是指词项X对应的位置为词向量中的左起第一个位置，词项Y对应的位置为词向量中的左起第三个位置。

本实施例按照词项之间的匹配关系将预测词项在预测词向量中的位置顺序按照人工词项在人工词向量中的位置顺序进行更新，能够提高后续相似度计算的准确性，避免语义相同的词向量之间因词项的位置顺序不同而导致计算得到的相似度较低的情况。

对应于上文实施例一的用于文本检测的模型训练方法，图4示出了本发明实施例三提供的用于文本检测的模型训练装置的结构框图，上述模型训练装置应用于客户端，客户端对应的计算机设备内包含模板预测模型和文本检测模型的模型架构，客户端通过访问服务端获取已知标注的训练文本、人工模板等数据。参见图4，该模型训练装置包括：

参考值计算模块41，用于将已知标注的训练文本输入模板预测模型得到预训练模板后，将预训练模板与N个人工模板进行相似度计算，确定计算结果的最大值为训练参考值，N为大于零的整数；

预检测模块42，用于将训练文本与预训练模板拼接构成的预检测文本，输入预训练好的文本检测模型，得到预检测结果；

预测模型训练模块43，用于根据预检测结果与训练文本的标注的比较结果，以及训练参考值，更新模板预测模型的参数，迭代直至收敛，得到训练好的模板预测模型；

检测模块44，用于将训练文本输入训练好的模板预测模型，输出的预测模板与训练文本拼接构成检测文本，并将检测文本输入预训练好的文本检测模型，得到检测结果；

检测模型训练模块45，用于根据检测结果与训练文本的标注的比较结果，更新文本检测模型的参数，迭代直至收敛，得到训练好的文本检测模型。

可选的是，上述参考值计算模块41包括：

词向量提取单元，用于使用预训练好的语义模型，提取预训练模板的预测词向量以及N个人工模板的人工词向量；

参考值确定单元，用于计算预测词向量与每个人工词向量的余弦相似度，确定N个余弦相似度中的最大值为训练参考值。

可选的是，上述预测词向量包括M个预测词项，上述人工词向量包括K个人工词项，M和K均为大于零的整数；

上述参考值计算模块41包括：

词项匹配单元，用于针对任一人工词向量，采用最大权匹配算法，将预测词向量的预测词项与人工词向量的人工词项进行匹配，得到对应预测词项的匹配人工词项；

词向量更新单元，用于提取所有匹配人工词项在人工词向量中的位置顺序，按照位置顺序更新对应预测词项在预测词向量中的位置顺序，得到更新的预测词向量；

相似度计算单元，用于计算更新后的预测词向量与更新所使用的人工词向量的余弦相似度。

可选的是，上述预检测结果包括文本预检测类别和对应的预检测置信度；

上述预测模型训练模块43包括：

第一比较单元，用于将文本预检测类别与训练文本的标注进行比较，得到第一比较结果，第一比较结果包括相同和不相同；

预训练指标确定单元，用于根据第一比较结果，确定预训练指标值，第一比较结果为相同时，预训练指标值为对应的预检测置信度，第一比较结果为不相同时，预训练指标值为第一预设值；

预测模型训练单元，用于根据训练参考值和预训练指标值更新模板预测模型的参数，迭代直至收敛，得到训练好的模板预测模型。

根据训练参考值和预训练指标值计算第一损失函数，以第一损失函数为依据，采用梯度下降法反向更新模板预测模型的参数，直至第一损失函数收敛，得到训练好的模板预测模型，其中，第一损失函数具体为：

L₁＝k₁(s-1)²+k₂(p₁-1)²

其中，L₁为第一损失函数，s为训练参考值，值域为[0,1]，p₁为预训练指标值，值域为[0,1]，k₁为第一权重，k₂为第二权重。

上述检测模型训练模块45包括：

第二比较单元，用于将文本检测类别与训练文本的标注进行比较，得到第二比较结果，第二比较结果包括相同和不相同；

训练指标确定单元，用于根据第二比较结果，确定训练指标值，第二比较结果为相同时，训练指标值为对应的检测置信度，第二比较结果为不相同时，训练指标值为第二预设值；

检测模型训练单元，用于根据训练指标值更新文本检测模型的参数，迭代直至收敛，得到训练好的文本检测模型。

可选的是，根据训练指标值更新文本检测模型的参数，迭代直至收敛，得到训练好的文本检测模型包括：

根据训练指标值计算第二损失函数，以第二损失函数为依据，采用梯度下降法反向更新文本检测模型的参数，迭代直至第二损失函数收敛，得到训练好的文本检测模型，其中，第二损失函数具体为：

L₂＝k₃(p₂-1)²

需要说明的是，上述模块与单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

图5为本发明实施例四提供的一种计算机设备的结构示意图。如图5所示，该实施例的计算机设备包括：至少一个处理器(图5中仅示出一个)、存储器以及存储在存储器中并可在至少一个处理器上运行的计算机程序，处理器执行计算机程序时实现上述任意各个健康预测方法实施例中的步骤。

该计算机设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，图5仅仅是计算机设备的举例，并不构成对计算机设备的限定，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括网络接口、显示屏和输入装置等。

所称处理器可以是CPU，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器包括可读存储介质、内存储器等，其中，内存储器可以是计算机设备的内存，内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。可读存储介质可以是计算机设备的硬盘，在另一些实施例中也可以是计算机设备的外部存储设备，例如，计算机设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、安全数字(Secure Digital，SD)卡、闪存卡(Flash Card)等。进一步地，存储器还可以既包括计算机设备的内部存储单元也包括外部存储设备。存储器用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，该其他程序如计算机程序的程序代码等。存储器还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。上述装置中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质至少可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

本发明实现上述实施例方法中的全部或部分流程，也可以通过一种计算机程序产品来完成，当计算机程序产品在终端设备上运行时，使得终端设备执行时实现可实现上述方法实施例中的步骤。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/计算机设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/计算机设备实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种用于文本检测的模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的模型训练方法，其特征在于，所述将所述预训练模板与N个人工模板进行相似度计算，确定计算结果的最大值为训练参考值包括：

使用预训练好的语义模型，提取所述预训练模板的预测词向量以及N个人工模板的人工词向量；

计算所述预测词向量与每个人工词向量的余弦相似度，确定N个余弦相似度中的最大值为训练参考值。

3.根据权利要求2所述的模型训练方法，其特征在于，所述预测词向量包括M个预测词项，所述人工词向量包括K个人工词项，M和K均为大于零的整数；

在所述提取所述预训练模板的预测词向量以及N个人工模板的人工词向量之后，还包括：

针对任一人工词向量，采用最大权匹配算法，将所述预测词向量的预测词项与人工词向量的人工词项进行匹配，得到对应预测词项的匹配人工词项；

提取所有匹配人工词项在所述人工词向量中的位置顺序，按照所述位置顺序更新对应预测词项在所述预测词向量中的位置顺序，得到更新的预测词向量；

所述计算所述预测词向量与每个人工词向量的余弦相似度包括：

计算更新后的预测词向量与更新所使用的人工词向量的余弦相似度。

4.根据权利要求1所述的模型训练方法，其特征在于，所述预检测结果包括文本预检测类别和对应的预检测置信度；

所述根据所述预检测结果与所述训练文本的标注的比较结果，以及所述训练参考值，更新所述模板预测模型的参数，迭代直至收敛，得到训练好的模板预测模型包括：

将所述文本预检测类别与所述训练文本的标注进行比较，得到第一比较结果，所述第一比较结果包括相同和不相同；

根据所述第一比较结果，确定预训练指标值，所述第一比较结果为相同时，所述预训练指标值为所述对应的预检测置信度，所述第一比较结果为不相同时，所述预训练指标值为第一预设值；

根据所述训练参考值和所述预训练指标值更新所述模板预测模型的参数，迭代直至收敛，得到训练好的模板预测模型。

5.根据权利要求4所述的模型训练方法，其特征在于，所述根据所述训练参考值和所述预训练指标值更新所述模板预测模型的参数，迭代直至收敛，得到训练好的模板预测模型包括：

根据所述训练参考值和所述预训练指标值计算第一损失函数，以所述第一损失函数为依据，采用梯度下降法反向更新所述模板预测模型的参数，迭代直至所述第一损失函数收敛，得到训练好的模板预测模型，其中，所述第一损失函数具体为：

L₁＝k₁(s-1)²+k₂(p₁-1)²

其中，L₁为所述第一损失函数，s为所述训练参考值，值域为[0，1]，p₁为所述预训练指标值，值域为[0，1]，k₁为第一权重，k₂为第二权重。

6.根据权利要求1至5任一项所述的模型训练方法，其特征在于，所述检测结果包括文本检测类别和对应的检测置信度；

所述根据所述检测结果与所述训练文本的标注的比较结果，更新所述文本检测模型的参数，迭代直至收敛，得到训练好的文本检测模型包括：

将所述文本检测类别与所述训练文本的标注进行比较，得到第二比较结果，所述第二比较结果包括相同和不相同；

根据所述第二比较结果，确定训练指标值，所述第二比较结果为相同时，所述训练指标值为所述对应的检测置信度，所述第二比较结果为不相同时，所述训练指标值为第二预设值；

根据所述训练指标值更新所述文本检测模型的参数，迭代直至收敛，得到训练好的文本检测模型。

7.根据权利要求6所述的模型训练方法，其特征在于，所述根据所述训练指标值更新所述文本检测模型的参数，迭代直至收敛，得到训练好的文本检测模型包括：

根据所述训练指标值计算第二损失函数，以所述第二损失函数为依据，采用梯度下降法反向更新所述文本检测模型的参数，直至所述第二损失函数收敛，得到训练好的文本检测模型，其中，所述第二损失函数具体为：

L₂＝k₃(p₂-1)²

其中，L₂为所述第二损失函数，p₂为所述训练指标值，值域为[0，1]，k₃为第三权重值。

8.一种用于文本检测的模型训练装置，其特征在于，所述模型训练装置包括：

9.一种计算机设备，其特征在于，所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的模型训练方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的模型训练方法。