CN113033660B

CN113033660B - 一种通用小语种检测方法、装置以及设备

Info

Publication number: CN113033660B
Application number: CN202110314938.0A
Authority: CN
Inventors: 赵威
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2022-08-02
Anticipated expiration: 2041-03-24
Also published as: CN113033660A

Abstract

本说明书实施例公开了一种通用小语种检测方法、装置以及设备。方案包括：获取指定语系中第一小语种的图像及其标签，作为有标签样本集；通过基础检测模型，对有标签样本集进行文本检测，获得第一检测结果，并根据第一检测结果训练基础检测模型。获取训练过的基础检测模型检测正确的辅助样本集；获取指定语系中第二小语种的图像，作为无标签样本集；根据辅助样本集和无标签样本集，对训练过的基础检测模型进行再训练；通过再训练过的基础检测模型，可对指定语系中的多种小语种的图像进行文本检测。

Description

一种通用小语种检测方法、装置以及设备

技术领域

本说明书涉及图像识别技术领域，尤其涉及一种通用小语种方法、装置以及设备。

背景技术

文字识别技术在无人机巡航、视觉障碍辅助系统、工业自动化、机器人、自动驾驶、信息管控等领域有着重要的作用。

目前，在对图像中的文本进行识别时，通常采用三种方法。第一，采用基于纹理的方法，根据图像中文本的纹理特征与背景的显著区别，识别文本。第二，采用基于连通区域的方法，基于特征一致性的连通子集，定义文本框。第三，对基于纹理的方法与基于连通区域的方法进行结合。

基于此，还需要更为通用、高效、低成本的文本检测的方案。

发明内容

本说明书一个或多个实施例提供一种通用小语种检测方法、装置、设备以及存储介质，用以解决如下技术问题：需要更为通用、高效、低成本的文本检测的方案。

为解决上述技术问题，本说明书一个或多个实施例是这样实现的：

本说明书一个或多个实施例提供的一种通用小语种检测方法，包括：

获取指定语系中第一小语种的图像及其标签，作为有标签样本集；

通过基础检测模型，对所述有标签样本集进行文本检测，获得第一检测结果，并根据所述第一检测结果训练所述基础检测模型；

获取所述训练过的基础检测模型检测正确的辅助样本集；

获取所述指定语系中第二小语种的图像，作为无标签样本集；

根据所述辅助样本集和所述无标签样本集，对所述训练过的基础检测模型进行再训练；

通过所述再训练过的基础检测模型，对所述指定语系中的多种小语种的图像进行文本检测。

本说明书一个或多个实施例提供的一种通用小语种检测装置，包括：

有标签样本获取模块，获取指定语系中第一小语种的图像及其标签，作为有标签样本集；

训练模块，通过基础检测模型，对所述有标签样本集进行文本检测，获得第一检测结果，并根据所述第一检测结果训练所述基础检测模型；

辅助样本获取模块，获取所述训练过的基础检测模型检测正确的辅助样本集；

无标签样本获取模块，获取所述指定语系中第二小语种的图像，作为无标签样本集；

再训练模块，根据所述辅助样本集和所述无标签样本集，对所述训练过的基础检测模型进行再训练；

第一文本检测模块，通过所述再训练过的基础检测模型，对所述指定语系中的多种小语种的图像进行文本检测。

本说明书一个或多个实施例提供的一种通用小语种检测设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

获取所述训练过的基础检测模型检测正确的辅助样本集；

本说明书一个或多个实施例提供的一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：

获取所述训练过的基础检测模型检测正确的辅助样本集；

本说明书一个或多个实施例采用的上述至少一个技术方案能够达到以下有益效果：仅需对指定语系中的一种小语种的样本集进行标注，用来训练基础检测模型。在基础检测模型训练完成后，无需对其他小语种的样本集再进行标注，而可直接采用无标签样本集再训练基础检测模型，使基础检测模型能够利用同语系下各小语种的特征之间的相似性，快速学习并掌握多种小语种的文本特征，以实现对多种小语种的通用检测。这样节省了大量标注的时间与工作量成本，降低了模型训练的复杂性，无需训练多个检测模型，仅通过一个检测模型，即可实现对多语种的通用检测，提高了模型训练的效率。并且，同时通过文本定位损失与置信度损失对基础检测模型进行训练，在对具体的网络组件进行调整的同时，对模型进行端对端的微调整，以提高模型训练的准确性。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书一个或多个实施例提供的一种通用小语种检测方法的流程示意图；

图2为本说明书一个或多个实施例提供的一种应用场景下，图1中方法的一种详细流程示意图；

图3为本说明书一个或多个实施例提供的一种应用场景下，图1中方法的另一种详细流程示意图；

图4为本说明书一个或多个实施例提供的一种通用小语种检测装置的结构示意图；

图5为本说明书一个或多个实施例提供的一种通用小语种检测设备的结构示意图。

具体实施方式

本说明书实施例提供一种通用小语种检测方法、装置、设备以及存储介质。

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本说明书实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

在本说明书一个或多个实施例中，通过有标签样本集对基础检测模型进行基础的训练，之后在对同一语系下的小语种再进行文本检测时，无需再进行样本标注，而可直接通过相应小语种的无标签样本集对基础检测模型进行再训练，而实现同一语系下的多种小语种的检测。下面基于这样的思路，具体进行说明。

图1为本说明书一个或多个实施例提供的一种通用小语种检测方法的流程示意图。该方法可以应用于不同的业务领域，比如，互联网金融业务领域、电商业务领域、即时通讯业务领域、游戏业务领域、公务业务领域等。该流程可以由相应领域的计算设备(比如，支付业务对应的风控服务器或者智能移动终端等)执行，流程中的某些输入参数或者中间结果允许人工干预调节，以帮助提高准确性。

图1中的流程可以包括以下步骤：

S102：获取指定语系中第一小语种的图像及其标签，作为有标签样本集。

根据各语种在语音、词汇、语法规则等方面的关系，可将不同的语种划分至不同的语系。则同一语系中的不同语种在词汇、语法规则等方面存在相近的关联关系，具有相似的特征。

针对指定语系，可从中任意选取一个小语种(即第一小语种)，获取第一小语种(比如汉藏语系中的泰语)的图像以及对应的标签。其中，标签用于标注图像中文本所在文本框的位置、大小、文本内容、文本类别等，具体可通过人工标注等方式获得。

需要说明的是，由于小语种具有普及程度低、难以辨别等特征，因此，选取小语种作为本说明书中基础检测模型训练与检测的对象，有利于解决小语种检测难的问题，但本方案并不限于对小语种的检测，对一些常用语种的检测同样是适用的。

S104：通过基础检测模型，对所述有标签样本集进行文本检测，获得第一检测结果，并根据所述第一检测结果训练所述基础检测模型。

基础检测模型可为卷积神经网络结构，用于通过有标签样本集的训练，检测第一小语种的图像中的文本的位置、内容等。

S106：获取所述训练过的基础检测模型检测正确的辅助样本集。

通过基础检测模型对有标签样本集中各个有标签样本的第一检测结果，以及有标签样本自身的标签，可确定第一检测结果的正确性。

检测正确的情况包括：有标签样本中存在文本，且通过基础检测模型检测得到的文本位置等正确；或者，有标签样本中不存在文本，且通过基础检测模型检测得出不存在文本。

检测错误的情况包括：有标签样本中存在文本，但通过基础检测模型检测得到的文本位置等错误；或者，有标签样本中不存在文本，但通过基础检测模型检测出存在文本。

通过有标签样本集对基础检测模型进行训练后，使得基础检测模型能够较为准确的对第一小语种的图像中的文本进行检测。

S108：获取所述指定语系中第二小语种的图像，作为无标签样本集。

获取指定语系中的第二小语种的图像，比如缅甸语。由于第二小语种与第一小语种属于同一指定语系，因此，第二小语种与第一小语种具有相似特征。针对第二小语种，可直接获取其相关图像，而无需进行标注。

S110：根据所述辅助样本集和所述无标签样本集，对所述训练过的基础检测模型进行再训练。

在本说明书一个或多个实施例中，将无标签样本集与辅助样本集进行混合，共同对训练过的基础检测模型进行再训练。

在再训练的过程中，混合的样本集中部分带有标签，部分没有标签。由于带有标签的部分样本集为基础检测模型已经能够正确检测的样本，因此，可以将辅助样本集(即检测正确的有标签样本)作为训练的标准，使得基础检测模型在能够正确的学习辅助样本集的特征的前提下，一并对无标签样本集中的特征进行学习。

在再训练的过程中，基础检测模型在已经掌握了第一小语种的特征的前提下，能够快速的对具有相似特征的第二小语种的无标签样本集也实现相对较为准确的检测。并且，通过多轮迭代训练，基础检测模型可不断学习无标签样本集中第二小语种的特征。因此，经过再训练的基础检测模型的文本检测的准确率能够达到较高的水平。

S112：通过所述再训练过的基础检测模型，对所述指定语系中的多种小语种的图像进行文本检测。

辅助样本集的特征包含第一小语种的特征，第二小语种对应的无标签样本集的特征包含第二小语种的特征，并且，第一小语种的特征与第二小语种的特征存在相似之处。因此，以辅助样本集的学习作为标准，通过辅助样本集与无标签样本集的迭代的训练，使得基础检测模型在再训练的过程中，能够快速的同时掌握第一小语种的特征与第二小语种的特征，以对第一小语种与第二小语种均实现较为准确的文本检测。

于是，通过再训练过的基础检测模型，能够同时对指定语系中的多种小语种的图像进行文本检测，以达到利用一个检测模型实现对同一语系中多种小语种的通用检测的目的。

在本说明书一个或多个实施例中，针对上述指定语系中的第三小语种，再利用训练完的基础检测模型对第三小语种进行文本检测时，可获取第三小语种的图像，作为无标签样本集。基于对第二小语种的模型再训练过程的相似原理，可将第三小语种的无标签样本集与辅助样本集进行再混合，对已经经过第一小语种与第二小语种的样本集训练过的基础检测模型，进行进一步训练，使模型能够在第一小语种的特征、第二小语种的特征的基础上，再学习第三小语种的特征。于是，基于指定语系下多种小语种特征的相似性，经过进一步训练的基础检测模型，能够同时对指定语系中的第一小语种、第二小语种、第三小语种的图像进行文本检测。

同理，针对该指定语系下的其他小语种，通过无标签样本集与已有的辅助样本集的混合，可对基础检测模型进行持续训练，使得基础检测模型能够同时检测多种小语种。

本方法仅需对指定语系中的一种小语种的样本集进行标注，用来训练基础检测模型。在基础检测模型训练完成后，无需对其他小语种的样本集再进行标注，而可直接采用无标签样本集再训练基础检测模型，使基础检测模型能够利用同语系下各小语种的特征之间的相似性，快速学习并掌握多种小语种的文本特征，以实现对多种小语种的通用检测。这样节省了大量标注的时间与工作量成本，降低了模型训练的复杂性，无需训练多个检测模型，仅通过一个检测模型，即可实现对多语种的通用检测，提高了模型训练的效率。并且，本方法同时通过文本定位损失与置信度损失对基础检测模型进行训练，在对具体的网络组件进行调整的同时，对模型进行端对端的微调整，以提高模型训练的准确性。

基于图1的方法，本说明书还提供了该方法的一些具体实施方案和扩展方案，下面继续进行说明。

在本说明书一个或多个实施例中，由于第二小语种对应的无标签样本集没有标注，因此，可通过训练过的基础检测模型，对无标签样本集进行文本检测，获得第二检测结果。基于第一小语种与第二小语种之间的特征关联性，可知第二检测结果在一定程度上具有一定的准确性，则可直接将获得的第二检测结果为文本的无标签样本作为正样本，将获得的第二检测结果为背景的无标签样本作为负样本。于是，在每轮训练的过程中，均可根据本轮训练的检测结果，将无标签样本集划分为正样本与负样本，以投入下一轮的训练过程中。

进一步地，在通过辅助样本集对基础检测模型进行再训练时，也可确定辅助样本集中包含的正样本与负样本。在这种情况下，有助于快速吸收第二小语种的图像带来的语言特征，同时由于此时用于训练的第一小语种的图像都是原本已经能够正确识别的样本，因此，这些样本能够有效防止部分识别错误的第二小语种的图像将模型训练带偏。

具体地，可获取辅助样本集中检测为文本的至少部分有标签样本作为正样本，获取辅助样本集中检测为背景的至少部分有标签样本作为负样本。在对基础检测模型进行再训练时，可将辅助样本集中的正样本与无标签样本集中的正样本混合，将辅助样本集中的负样本与无标签样本集中的负样本混合，以共同对基础检测模型进行再训练。

其中，由于负样本代表背景，而背景通常较为复杂，包含大量不同的特征，因此，可确定用于训练的负样本的数量大于正样本的数量，以使模型能够充分的对复杂的背景的特征进行学习。比如，使负样本与正样本的比例为3:1。

更进一步地，在对样本进行标注时，可将图像中文本实际所在的文本框作为真实框(比如，ground-truth框)，确定真实框的中心坐标、宽度、高度、对应的字符内容等。可根据图像的格式，确定图像中通常存在文本的若干位置以及相应的文本框的大小，作为默认框。比如发票抬头中的票据代码、电子票据代码、统一社会信用代码、交款人等文本所在的位置。

在对基础检测模型进行训练的过程中，输出小语种图像中小语种字符的位置信息，即预测的文本框与默认框的中心坐标偏置、宽高偏置以及小语种文本的置信度得分，为默认框确定中心坐标、尺寸大小和宽高比例，将经过调整后的默认框作为预测框，确定预测框所在的位置为相应的默认框所代表的对象(如文本)。

于是，基础检测模型在判断是否对样本检测正确的过程中，可根据基础检测模型确定出的有标签样本集中各有标签样本对应的预测框的位置、大小，与标注的真实框进行比较。可根据有标签样本中标注的真实框以及预测框之间的重叠率，确定真实框与预测框是否匹配。匹配则表示检测正确，则可从匹配的有标签样本中，获取辅助样本集。

其中，真实框与预测框之间的重叠率与检测的正确性成正相关关系，重叠率越高，表示真实框与预测框越匹配，预测框所对应的检测越准确。可通过设置重叠率阈值，判断不小于该重叠率阈值的，表示真实框与预测框匹配，反之则不匹配。

在本说明书一个或多个实施例中，基础检测模型可包括特征提取网络组件与文本定位网络组件。通过基础检测模型中的特征提取网络组件，可提取有标签样本集的文本特征。通过基础检测模型中的文本定位网络组件，可根据提取出的文本特征，对有标签样本集进行文本定位，获得相应的第一检测结果。

具体地，基础检测模型可根据第一检测结果对应的文本定位损失，调整模型中文本定位网络组件的参数，以训练基础检测模型，降低文本定位损失，实现对文本定位的准确检测。

文本定位损失可通过有标签样本集中对文本的标注与第一检测结果得到的对文本的预测之间的位置差异来确定。具体可通过以下公式得出：

其中，Loss_location表示文本定位损失，g表示grund-truth框的参数，d表示默认框的参数，cx,cy表示默认框的中心坐标，w表示默认框的宽度，h表示默认框的高度，l表示预测框，N表示匹配的默认框数目，

表示第i个默认框与类别p的第j个grund-truth框的相似度，

表示预测框的多元参数，

表示grund-truth框多元参数，smoothL1表示损失函数。

进一步地，基础检测模型除了对文本进行定位检测之外，还可对文本类别、文本内容等进行检测。其中，文本类别可包括文本的不同字体、不同样式、不同文本框等。类似地，除了文本类别以外，还可以针对指定的小语种(比如，第一小语种)预设多种不同类别，比如用于计算置信度等，以实现更精确的检测，比如，不同边框样式、不同业务领域、不同国家、不同的样本来源、不同规范度(官用法、方言、俚语等)、不同复杂程度的背景等。

基础检测模型可针对文本类别等检测，确定对应的置信度损失，并根据第一检测结果对应的文本定位损失以及该置信度损失组成的总损失，在上述调整的基础上，对基础检测模型的参数进行再调整，以得到训练完成的基础检测模型。

更进一步地，基础检测模型可根据第一小语种的不同类别，确定第一检测结果对应的文本类别置信度损失，进而确定文本类别置信度损失与文本定位损失组成的总损失。

具体地，置信度损失可通过以下公式确定：

其中，positive表示正样本，negative表示负样本，N表示匹配的默认框数目，

表示第i个默认框与类别p的第j个grund-truth框相匹配，如果第i个默认框与类别p的第j个grund-truth框不匹配则

表示第i个默认框是类别p的置信度得分，

表示置信度交叉熵，该置信度损失可以是softmax损失函数。

总损失可通过以下公式确定：

其中，Loss(x,c,l,g)表示总损失，Loss_confidencce(x,c)表示置信度损失，Loss_location(x,l,g)表示文本定位损失，N表示匹配的默认框数目，α表示平衡因子，可设置为1。

在本说明书一个或多个实施例中，第一小语种的图像可以经过预处理得到的，比如，先获取指定语系中第一小语种的源图像，可对第一小语种的图像进行多尺寸图像处理，得到若干不同尺寸的标准图像(除了变换尺寸以外，还可以进行旋转、平移等不改变文本实质内容的处理)。之后，可对得到的若干不同尺寸的标准图像进行减均值处理，作为上述的第一小语种的图像。通过多尺寸处理与减均值处理，可增加样本，增加对同一文本内容的训练机会和适应性，同时使得数据标准化，便于模型训练。

结合前面的说明，本说明书一个或多个实施例提供了一种应用场景下，图1中方法的一种详细流程示意图，该流程中使用了前面一些可选的方案，该流程如图2所示。

在图2的流程中，训练用于检测第一小语种的基础检测模型的过程包括以下步骤：

获取复杂背景(比如，前景与背景之间的相似度超过设定阈值等，也可以人工判定)下的第一小语种的图像。

对获取到的第一小语种图像进行图像尺寸处理，得到标准尺寸大小的图像。并且，对图像尺寸处理后的第一小语种图像进行减均值操作，以实现数据标准化。

对第一小语种图像进行标注，确定其真实框，并构建有标签样本集。

构建基于深层卷积神经网络的基础检测模型，采用有标签样本集，对基础检测模型进行训练。并采用测试集，对训练后的基础检测模型进行测试，根据测试结果，确定对基础检测模型的网络性能的评价，判断模型是否可用。

在对基础检测模型评价可用后，可对基础检测模型进行应用，即采用基础检测模型，对待检测的第一小语种图像进行检测，确定文本位置。

结合前面的说明，本说明书一个或多个实施例提供了一种应用场景下，图1中方法的另一种详细流程示意图，该流程中使用了前面一些可选的方案，该流程如图3所示。

在图3的流程中，训练用于检测多种小语种的通用检测模型的过程包括以下步骤：

获取与第一小语种同语系的第二小语种图像，无需进行标注，组成无标签样本集。

通过训练过的基础检测模型，对无标签样本集进行检测。

根据检测结果，将无标签样本集划分为正样本与负样本，正样本为检测为文本的图像，负样本为检测为背景的图像。

从第一小语种的有标签样本集中，获取基础检测模型能够检测正确的样本，组成辅助样本集。

将无标签样本集的正、负样本与辅助样本集混合，作为新的样本集。

采用新的样本集，对基础检测模型进行再训练。

根据基础检测模型的检测准确率，判断其准确率未达标时，重复对基础检测模型进行多轮训练，判断其准确率达标时，可得到训练完成的通用检测模型，用于对第一小语种与第二小语种进行文本检测。

基于同样的思路，本说明书一个或多个实施例还提供了上述方法对应的装置和设备，如图4、图5所示。

图4为本说明书一个或多个实施例提供的一种通用小语种检测装置的结构示意图，图中的虚线方框表示可选的模块，所述装置包括：

有标签样本获取模块402，获取指定语系中第一小语种的图像及其标签，作为有标签样本集；

训练模块404，通过基础检测模型，对所述有标签样本集进行文本检测，获得第一检测结果，并根据所述第一检测结果训练所述基础检测模型；

辅助样本获取模块406，获取所述训练过的基础检测模型检测正确的辅助样本集；

无标签样本获取模块408，获取所述指定语系中第二小语种的图像，作为无标签样本集；

再训练模块410，根据所述辅助样本集和所述无标签样本集，对所述训练过的基础检测模型进行再训练；

第一文本检测模块412，通过所述再训练过的基础检测模型，对所述指定语系中的多种小语种的图像进行文本检测。

可选地，所述再训练模块410，通过所述训练过的基础检测模型，对所述无标签样本集进行文本检测，获得第二检测结果；将获得的第二检测结果为文本的无标签样本作为正样本，将获得的第二检测结果为背景的无标签样本作为负样本；根据所述无标签样本集中的正样本、负样本，以及所述辅助样本集，对所述训练过的基础检测模型进行再训练。

可选地，所述再训练模块410，获取所述辅助样本集中检测为文本的有标签样本作为正样本，获取所述辅助样本集中检测为背景的有标签样本作为负样本；其中，获取的所述有标签样本的负样本的数量大于正样本的数量；根据所述无标签样本集与辅助样本集中的正样本、负样本，对所述训练过的基础检测模型进行再训练。

可选地，所述训练模块404，通过所述基础检测模型中的特征提取网络组件，提取所述有标签样本集的文本特征；通过所述基础检测模型中的文本定位网络组件，根据所述文本特征，对所述有标签样本集进行文本定位，获得第一检测结果；根据所述第一检测结果对应的文本定位损失，调整所述文本定位网络组件的参数，训练所述基础检测模型。

可选地，所述装置还包括再调整模块414，确定所述第一检测结果对应的文本定位损失以及置信度损失组成的总损失；根据所述总损失，对所述基础检测模型的参数进行再调整，得到训练完成的所述基础检测模型。

可选地，所述再调整模块414，根据针对所述第一小语种预设的不同类别，确定所述第一检测结果对应的文本类别置信度损失；确定所述文本类别置信度损失与文本定位损失组成的总损失。

可选地，所述辅助样本获取模块406，通过所述基础检测模型，确定所述有标签样本集中各有标签样本对应的预测框的位置、大小；根据所述有标签样本中标注的真实框以及所述预测框之间的重叠率，确定所述真实框与所述预测框是否匹配；从匹配的有标签样本中，获取辅助样本集。

可选地，所述有标签样本获取模块402，获取指定语系中第一小语种的源图像；对所述第一小语种的源图像进行多尺寸图像处理，得到若干不同尺寸的标准图像；对所述若干不同尺寸的标准图像进行减均值处理，得到所述第一小语种的图像。

可选地，所述装置还包括第二文本检测模块416，获取所述指定语系中第三小语种的图像，作为无标签样本集；根据所述辅助样本集和所述第三小语种的无标签样本集，对所述再训练过的基础检测模型进行进一步训练；通过所述进一步训练过的基础检测模型，对所述指定语系中的第二小语种、第三小语种的图像进行文本检测。

图5为本说明书一个或多个实施例提供的一种通用小语种检测设备的结构示意图，所述设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

获取所述训练过的基础检测模型检测正确的辅助样本集；

处理器与存储器之间可以通过总线通信，设备还可以包括与其他设备通信的输入/输出接口。

基于同样的思路，本说明书一个或多个实施例还提供了对应于上述方法的一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：

获取所述训练过的基础检测模型检测正确的辅助样本集；

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书实施例可提供为方法、系统、或计算机程序产品。因此，本说明书实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备、非易失性计算机存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述仅为本说明书的一个或多个实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书的一个或多个实施例可以有各种更改和变化。凡在本说明书的一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种通用小语种检测方法，包括：

通过基础检测模型，对所述有标签样本集进行文本检测，获得第一检测结果，并根据所述第一检测结果训练所述基础检测模型，根据针对所述第一小语种预设的不同类别，确定所述第一检测结果对应的置信度损失，确定所述置信度损失与所述第一检测结果对应的文本定位损失组成的总损失，根据所述总损失，对所述基础检测模型的参数进行再调整，得到训练完成的所述基础检测模型，所述不同类别包括以下至少一种：不同业务领域、不同国家、不同的样本来源、不同规范度、不同复杂程度的背景；

获取所述训练过的基础检测模型检测正确的辅助样本集；

2.如权利要求1所述的方法，所述根据所述辅助样本集和所述无标签样本集，对所述训练过的基础检测模型进行再训练，具体包括：

通过所述训练过的基础检测模型，对所述无标签样本集进行文本检测，获得第二检测结果；

将获得的第二检测结果为文本的无标签样本作为正样本，将获得的第二检测结果为背景的无标签样本作为负样本；

根据所述无标签样本集中的正样本、负样本，以及所述辅助样本集，对所述训练过的基础检测模型进行再训练。

3.如权利要求2所述的方法，所述根据所述无标签样本集中的正样本、负样本，以及所述辅助样本集，对所述训练过的基础检测模型进行再训练，具体包括：

获取所述辅助样本集中检测为文本的有标签样本作为正样本，获取所述辅助样本集中检测为背景的有标签样本作为负样本；其中，获取的所述有标签样本的负样本的数量大于正样本的数量；

根据所述无标签样本集与辅助样本集中的正样本、负样本，对所述训练过的基础检测模型进行再训练。

4.如权利要求1所述的方法，所述通过基础检测模型，对所述有标签样本集进行文本检测，获得第一检测结果，并根据所述第一检测结果训练所述基础检测模型，具体包括：

通过所述基础检测模型中的特征提取网络组件，提取所述有标签样本集的文本特征；

通过所述基础检测模型中的文本定位网络组件，根据所述文本特征，对所述有标签样本集进行文本定位，获得第一检测结果；

根据所述第一检测结果对应的文本定位损失，调整所述文本定位网络组件的参数，训练所述基础检测模型。

5.如权利要求1所述的方法，所述获取所述训练过的基础检测模型检测正确的辅助样本集，具体包括：

通过所述基础检测模型，确定所述有标签样本集中各有标签样本对应的预测框的位置、大小；

根据所述有标签样本中标注的真实框以及所述预测框之间的重叠率，确定所述真实框与所述预测框是否匹配；

从匹配的有标签样本中，获取辅助样本集。

6.如权利要求1所述的方法，所述获取指定语系中第一小语种的图像，具体包括：

获取指定语系中第一小语种的源图像；

对所述第一小语种的源图像进行多尺寸图像处理，得到若干不同尺寸的标准图像；

对所述若干不同尺寸的标准图像进行减均值处理，得到所述第一小语种的图像。

7.如权利要求1所述的方法，所述方法还包括：

获取所述指定语系中第三小语种的图像，作为无标签样本集；

根据所述辅助样本集和所述第三小语种的无标签样本集，对所述再训练过的基础检测模型进行进一步训练；

通过所述进一步训练过的基础检测模型，对所述指定语系中的第二小语种、第三小语种的图像进行文本检测。

8.一种通用小语种检测装置，包括：

训练模块，通过基础检测模型，对所述有标签样本集进行文本检测，获得第一检测结果，并根据所述第一检测结果训练所述基础检测模型，根据针对所述第一小语种预设的不同类别，确定所述第一检测结果对应的置信度损失，确定所述置信度损失与所述第一检测结果对应的文本定位损失组成的总损失，根据所述总损失，对所述基础检测模型的参数进行再调整，得到训练完成的所述基础检测模型，所述不同类别包括以下至少一种：不同业务领域、不同国家、不同的样本来源、不同规范度、不同复杂程度的背景；

9.如权利要求8所述的装置，所述再训练模块，通过所述训练过的基础检测模型，对所述无标签样本集进行文本检测，获得第二检测结果；

10.如权利要求9所述的装置，所述再训练模块，获取所述辅助样本集中检测为文本的有标签样本作为正样本，获取所述辅助样本集中检测为背景的有标签样本作为负样本；其中，获取的所述有标签样本的负样本的数量大于正样本的数量；

11.如权利要求8所述的装置，所述训练模块，通过所述基础检测模型中的特征提取网络组件，提取所述有标签样本集的文本特征；

12.如权利要求8所述的装置，所述辅助样本获取模块，通过所述基础检测模型，确定所述有标签样本集中各有标签样本对应的预测框的位置、大小；

从匹配的有标签样本中，获取辅助样本集。

13.如权利要求8所述的装置，所述有标签样本获取模块，获取指定语系中第一小语种的源图像；

14.如权利要求8所述的装置，所述装置还包括第二文本检测模块，获取所述指定语系中第三小语种的图像，作为无标签样本集；

15.一种通用小语种检测设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

获取所述训练过的基础检测模型检测正确的辅助样本集；