CN109960808A

CN109960808A - 一种文本识别方法、装置、设备及计算机可读存储介质

Info

Publication number: CN109960808A
Application number: CN201910232528.4A
Authority: CN
Inventors: 苌征; 肖燕珊; 刘波; 尹子健; 梁飞; 汪槐沛; 郝志峰
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-03-26
Filing date: 2019-03-26
Publication date: 2019-07-02
Anticipated expiration: 2039-03-26
Also published as: CN109960808B

Abstract

本申请公开了一种文本识别方法，在基于主动学习技术对训练样本进行筛选时，综合考虑样本的信息价值及其在特征空间中的分布结构，以获得较高质量的训练样本；同时，通过参数共享与样本表达共享，实现了各待训练模型之间的信息共享，实现了多个模型的同步训练，有效减少了训练模型所需的标记样本开销，并保证了各训练任务对应模型之间的相互促进，有效提升了算法的模型优化效率。因此，本申请所提供的文本识别方法在模型训练过程中不仅保证了样本质量，同时还实现了多个文本识别模型的并行训练，在有效提高文本识别准确度的同时，保证了文本识别效率。本申请还公开了一种文本识别装置、设备及计算机可读存储介质，均具有上述有益效果。

Description

一种文本识别方法、装置、设备及计算机可读存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种文本识别方法，还涉及一种文本识别装置、设备以及计算机可读存储介质。

背景技术

人们在生产和生活中，需要处理大量的文字、报表等文本，为减轻人们的劳动，提高处理效率，基于计算机的文本识别技术应运而生。

现有的文本识别一般基于机器学习技术实现，机器学习主要研究计算机如何利用经验数据提高自身性能，因而充分和高质量的样本数据是有效学习的基础和关键，然而，在传统的有效监督学习中，要求用于训练学习模型的数据均是已标记的，而在许多实际任务中，虽然可以轻松获取到大量数据，但这些数据大多是未被标记的，即便可以获得较多的标记数据，其数据质量也无法得到保证，进一步，基于这些数据进行训练所获得的学习模型的准确度同样无法得到保证。因此，基于现有的文本识别模型进行文本识别，其识别准确度较低。

为解决上述问题，可通过主动学习进行样本筛选，即根据选定的选择策略，在大量未标记的样本中筛选出少量最有助于提升分类模型性能的样本，这些样本被用于标记和训练新的分类模型，通过多次迭代不断提升分类模型性能。然而，目前主流的主动学习算法，在对样本进行筛选时却只考虑到样本的信息价值，没有考虑到多个特征相似的样本会导致样本冗余，从而带来算法性能下降的后果，从而导致后续文本分类效率低下。

因此，如何在保证文本分类效率的同时，有效提高文本识别准确度是本领域技术人员亟待解决的问题。

发明内容

本申请的目的是提供一种文本识别方法，该文本识别方法可在保证文本分类效率的同时，有效地提高文本识别准确度；本申请的另一目的是提供一种文本识别装置、设备以及计算机可读存储介质，也具有上述有益效果。

为解决上述技术问题，本申请提供了一种文本识别方法，所述文本识别方法包括：

获取各待训练识别模型对应的初始标记样本集和初始未标记样本集；

根据各所述待训练识别模型对应的预设识别标准，通过所述初始标记样本集对各所述待训练识别模型进行训练，获得各初始文本识别模型；

通过不确定性标准算法对所述初始未标记样本集进行筛选获得价值样本，将标记后的价值样本添加至所述初始标记样本集，获得第一标记样本集；其中，将剔除所述价值样本后的初始未标记样本集记为第一未标记样本集；

以各所述待训练识别模型对应的分类超平面为标准，对所述第一未标记样本集进行划分，并通过预设标准算法对划分后的第一未标记样本集进行筛选获得代表样本，将标记后的代表样本添加至所述第一标记样本集，获得第二标记样本集；

通过所述第二标记样本集对各所述初始文本识别模型进行训练，获得各文本识别模型；

当接收到待识别文本时，通过各所述文本识别模型对所述待识别文本进行识别，当所述待识别文本属于所述文本识别模型对应的文本类别时，将所述待识别文本添加至所述文本识别模型对应的文本库。

优选的，所述通过不确定性标准算法对所述初始未标记样本集进行筛选获得价值样本，包括：

对所述初始未标记样本集中的每个未标记样本进行决策值计算，并将所述决策值在预设区间内的未标记样本作为所述价值样本。

优选的，所述以各所述待训练识别模型对应的分类超平面为标准，对所述第一未标记样本集进行划分，并通过预设标准算法对划分后的第一未标记样本集进行筛选获得代表样本，包括：

以各所述待训练识别模型对应的分类超平面为标准，将所述第一未标记样本集划分为第一预设数量个簇；

计算各所述簇中每个未标记样本的决策值的绝对值；

将所述绝对值为最小值的未标记样本作为各所述簇的代表样本。

以各所述待训练识别模型对应的分类超平面为标准，将所述第一未标记样本集划分为第二预设数量个特征区间；

计算各所述特征区间中每个未标记样本的决策值的绝对值；

将所述绝对值为最小值的未标记样本作为各所述特征区间的代表样本。

优选的，所述通过所述第二标记样本集对各所述初始文本识别模型进行训练，获得各文本识别模型之后，还包括：

计算所述文本识别模型的精确度；

判断所述精确度是否达到预设精确度；

若否，则返回所述通过不确定性标准算法对所述初始未标记样本集进行筛选获得价值样本的步骤进行迭代处理，直至获得满足所述预设精确度的文本识别模型。

为解决上述技术问题，本申请还提供了一种文本识别装置，所述文本识别装置包括：

样本获取模块，用于获取各待训练识别模型对应的初始标记样本集和初始未标记样本集；

初始训练模块，用于根据各所述待训练识别模型对应的预设识别标准，通过所述初始标记样本集对各所述待训练识别模型进行训练，获得各初始文本识别模型；

初始筛选模块，用于通过不确定性标准算法对所述初始未标记样本集进行筛选获得价值样本，将标记后的价值样本添加至所述初始标记样本集，获得第一标记样本集；其中，将剔除所述价值样本后的初始未标记样本集记为第一未标记样本集；

二次筛选模块，用于以各所述待训练识别模型对应的分类超平面为标准，对所述第一未标记样本集进行划分，并通过预设标准算法对划分后的第一未标记样本集进行筛选获得代表样本，将标记后的代表样本添加至所述第一标记样本集，获得第二标记样本集；

二次训练模块，用于通过所述第二标记样本集对各所述初始文本识别模型进行训练，获得各文本识别模型；

文本识别模块，用于当接收到待识别文本时，通过各所述文本识别模型对所述待识别文本进行识别，当所述待识别文本属于所述文本识别模型对应的文本类别时，将所述待识别文本添加至所述文本识别模型对应的文本库。

优选的，所述初始训练模块具体用于对所述初始未标记样本集中的每个未标记样本进行决策值计算，并将所述决策值在预设区间内的未标记样本作为所述价值样本，将标记后的价值样本添加至所述初始标记样本集，获得所述第一标记样本集。

优选的，所述文本识别装置还包括：

迭代判断模块，用于计算所述文本识别模型的精确度；判断所述精确度是否达到预设精确度；若否，则返回所述通过不确定性标准算法对所述初始未标记样本集进行筛选获得价值样本的步骤进行迭代处理，直至获得满足所述预设精确度的文本识别模型。

为解决上述技术问题，本申请还提供了一种文本识别设备，所述文本识别设备包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述任意一种文本识别方法的步骤。

为解决上述技术问题，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一种文本识别方法的步骤。

本申请所提供的一种文本识别方法，包括获取各待训练识别模型对应的初始标记样本集和初始未标记样本集；根据各所述待训练识别模型对应的预设识别标准，通过所述初始标记样本集对各所述待训练识别模型进行训练，获得各初始文本识别模型；通过不确定性标准算法对所述初始未标记样本集进行筛选获得价值样本，将标记后的价值样本添加至所述初始标记样本集，获得第一标记样本集；其中，将剔除所述价值样本后的初始未标记样本集记为第一未标记样本集；以各所述待训练识别模型对应的分类超平面为标准，对所述第一未标记样本集进行划分，并通过预设标准算法对划分后的第一未标记样本集进行筛选获得代表样本，将标记后的代表样本添加至所述第一标记样本集，获得第二标记样本集；通过所述第二标记样本集对各所述初始文本识别模型进行训练，获得各文本识别模型；当接收到待识别文本时，通过各所述文本识别模型对所述待识别文本进行识别，当所述待识别文本属于所述文本识别模型对应的文本类别时，将所述待识别文本添加至所述文本识别模型对应的文本库。

可见，本申请所提供的文本识别方法，在基于主动学习技术对训练样本进行筛选时，综合考虑了样本的信息价值及其在特征空间中的分布结构，以获得较高质量的、可用于模型训练的样本；与此同时，通过参数共享与样本表达共享，实现了各待训练模型之间的信息共享，从而实现了多个模型的同步训练，由此，即可有效减少训练模型所需要的标记样本开销，并保证各训练任务对应模型之间的相互促进，有效提升了算法的模型优化效率。因此，本申请所提供的文本识别方法在模型训练过程中不仅保证了样本质量，同时还实现了多个文本识别模型的并行训练，在有效提高文本识别准确度的同时，保证了文本识别效率。

本申请所提供的一种文本识别装置、设备以及计算机可读存储介质，均具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请所提供的一种文本识别方法的流程示意图；

图2为本申请所提供的一种文本识别装置的结构示意图；

图3为本申请所提供的一种文本识别设备的结构示意图。

具体实施方式

本申请的核心是提供一种文本识别方法，该文本识别方法可在保证文本分类效率的同时，有效地提高文本识别准确度；本申请的另一核心是提供一种文本识别装置、设备以及计算机可读存储介质，也具有上述有益效果。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

请参考图1，图1为本申请所提供的一种文本识别方法的流程示意图，该文本识别方法可以包括：

S101：获取各待训练识别模型对应的初始标记样本集和初始未标记样本集；

一般的，文本识别可基于对应的文本识别模型实现，不同的文本识别模型对应于不同的识别标准。因此，在进行文本识别之前，可先进行模型训练，以获得可用于文本识别的学习模型。

学习模型的训练需要基于大量样本进行主动学习获得，本步骤即旨在实现样本的获取，其所需要获取的样本中包括初始标记样本集和初始未标记样本集，其中，初始标记样本集中的样本为已经获知样本类型的文本，可直接用于模型训练；初始未标记样本集中的样本为未获知样本类型的文本，可进行样本筛选和标记，获得标记样本。

其中，对于同一标记样本可用于不同学习模型的训练，这是由于该标记样本同时存在不同学习模型对应的识别标准所导致的，不影响本技术方案的实施，还可有效减少样本冗余，保证样本使用价值。

S102：根据各所述待训练识别模型对应的预设识别标准，通过初始标记样本集对各待训练识别模型进行训练，获得各初始文本识别模型；

学习模型基于样本训练获得，本步骤旨在实现初始学习模型的获取，即初始文本识别模型的获取，基于S101已经获得初始标记样本集，此时，对初始标记样本集中的各个标记样本进行训练，即可获得各个待训练识别模型对应的初始文本识别模型。其中，对于各个待训练识别模型具体的训练过程，参照各自对应的预设识别标准，按照任一种已有技术进行训练即可，本申请在此不在赘述。

另外，对于以上预设识别标准，可由技术人员根据实际需求进行设定，如可预设关键字、预设字符等，并不唯一。不同的待训练识别模型对应于不同的预设识别标准，例如，在用于疾病文本的分类识别中，不同的疾病类型对应不同的学习模型，因此，对于不同类型的疾病文本，可对照预设不同的关键字，当然，预设关键字的数量可以为多个，以提高识别结果的准确度。

S103：通过不确定性标准算法对初始未标记样本集进行筛选获得价值样本，将标记后的价值样本添加至初始标记样本集，获得第一标记样本集；其中，将剔除价值样本后的初始未标记样本集记为第一未标记样本集；

本步骤旨在实现对初始未标记样本集的初始筛选。具体而言，本次样本筛选将样本的信息价值考虑在内，通过不确定性标准算法对初始未标记样本集进行筛选，获得具有较高价值度的样本，即上述价值样本。进一步，对价值样本进行标记，并将标记后的价值样本添加至初始标记样本集，即可获得上述第一标记样本集。

其中，不确定性标准算法的样本筛选过程如下：处理器对于每个未标记样本给出一个评价分数以表示其不确定性，进一步找到评价分数最接近预定阈值的样本，或者对未标记样本的评价分数进行排序，挑选分值最高的样本。由此，即可完成上述价值样本的筛选。当然，样本的筛选标准并不唯一，均可根据实际算法需要进行设定。

此外，对于初始未标记样本集中剩余的未标记样本，也即剔除价值样本后的初始未标记样本集，可将其记为第一未标记样本集，以便后续使用。

优选的，上述通过不确定性标准算法对初始未标记样本集进行筛选获得价值样本，包括：对初始未标记样本集中的每个未标记样本进行决策值计算，并将决策值在预设区间内的未标记样本作为价值样本。

本优选实施例提供了一种具有具体样本筛选标准的基于不确定性标准算法的样本筛选方法，即以决策值作为样本筛选标准。具体而言，可对各个未标记样本进行决策值计算，判断各个决策值是否在预设区间内，若是，则将其作为代表样本。

其中，对于上述预设区间的具体范围取值，依据实际情况进行设定即可，本申请不做限定。例如，可选取决策值在[-1，+1]内的样本作为价值样本，以保证被筛选样本较高的价值度，提高模型质量。

S104：以各待训练识别模型对应的分类超平面为标准，对第一未标记样本集进行划分，并通过预设标准算法对划分后的第一未标记样本集进行筛选获得代表样本，将标记后的代表样本添加至第一标记样本集，获得第二标记样本集；

本步骤旨在实现对初始未标记样本集的二次筛选，即对第一未标记样本集的筛选。具体而言，本次将样本在特征空间中的分布结构考虑在内，在确定各个待训练识别模型对应的样本分布的分类超平面后，依照该分类超平面对第一未标记样本集进行空间划分，当然，对于其划分标准本申请不做限定。进一步，通过预设的标准算法对划分后的第一未标记样本集进行样本筛选，以获得与对应分类超平面距离最短的样本，即上述代表样本。最后，对代表样本进行标记，并将标记后的代表样本添加至第一标记样本集，即可获得上述第二标记样本集。

优选的，上述以各待训练识别模型对应的分类超平面为标准，对第一未标记样本集进行划分，并通过预设标准算法对划分后的第一未标记样本集进行筛选获得代表样本，可以包括：以各待训练识别模型对应的分类超平面为标准，将第一未标记样本集划分为第一预设数量个簇；计算各簇中每个未标记样本的决策值的绝对值；将绝对值为最小值的未标记样本作为各簇的代表样本。

本优选实施例提供了一种较为具体的二次样本筛选方法，即基于聚类多样性标准算法实现。具体的，在确定待训练识别模型的分类超平面后，以该分类超平面为标准，对第一未标记样本集进行簇的划分，并对每个簇中的未标记样本进行决策值的计算，其中每个簇中决策值的绝对值取值最小的样本即为距离对应分类超平面最短的样本，由此，即可将该样本作为对应簇的代表样本。以第一优选实施例中的举例为例，被划分的第一未标记样本集中的未标记样本即为决策值小于-1和大于+1的样本。其中，对于上述第一预设数量的具体取值，依据实际情况进行设定即可，不影响本技术方案的实施，当样本数量较多时，其取值越大，反之越小。

优选的，上述以各待训练识别模型对应的分类超平面为标准，对第一未标记样本集进行划分，并通过预设标准算法对划分后的第一未标记样本集进行筛选获得代表样本，可以包括：以各待训练识别模型对应的分类超平面为标准，将第一未标记样本集划分为第二预设数量个特征区间；计算各特征区间中每个未标记样本的决策值的绝对值；将绝对值为最小值的未标记样本作为各特征区间的代表样本。

本优选实施例提供了另一种较为具体的二次样本筛选方法，即基于空间划分多样性标准算法实现。具体的，在确定待训练识别模型的分类超平面后，以该分类超平面为标准，对第一未标记样本集进行特征区间的划分，并对每个特征区间中的未标记样本进行决策值的计算，其中每个特征区间中决策值的绝对值取值最小的样本即为距离对应分类超平面最短的样本，由此，即可将该样本作为对应特征区间的代表样本。同样的，以第一优选实施例中的举例为例，被划分的第一未标记样本集中的未标记样本即为决策值小于-1和大于+1的样本。其中，对于上述第二预设数量的具体取值，依据实际情况进行设定即可，不影响本技术方案的实施，当样本数量较多时，其取值越大，反之越小。

S105：通过第二标记样本集对各初始文本识别模型进行训练，获得各文本识别模型；

基于S103和S104，可筛选获得具有较高价值度、距离对应分类超平面最接近并且已知样本类型的第二标记样本集，相较于普通的直接获取的已知样本类型的样本集，该样本集中的样本质量较高，使得后续的模型训练更加有所保证。此时，即可基于质量更高的第二标记样本集对初始文本识别模型再次进行训练，也即优化，以获得准确度更高的用于文本识别的文本识别模型。

需要说明的是，以上S101至S105为文本识别模型的构建过程，在实际的文本识别过程中，以上步骤只需执行一次，在后续的文本识别过程中，直接对模型进行调用即可，具体可将其存储于相应的存储介质中，方便快捷。

显而易见的，以上学习模型的训练过程并不仅限于文本模型的构建，同样适用于其他领域的模型构建，如图像识别模型、目标检测模型等，可以想到的，应用于其他领域的与以上相同或相似的模型构建的方法，均在本申请保护范围之内。

S106：当接收到待识别文本时，通过各文本识别模型对待识别文本进行识别，当待识别文本属于文本识别模型对应的文本类别时，将待识别文本添加至文本识别模型对应的文本库。

本步骤旨在实现文本识别，当接收到待识别文本时，即可通过各个文本识别模型对其进行识别，不同的文本识别模型对应于不同的文本类别，且具有其对应的文本库。当待识别文本属于某一文本识别模型对应的文本类别时，即可将该待识别文本添加至其对应的文本库即可，由此完成文本识别。

例如，在用于疾病文本的分类识别中，不同的疾病文本识别模型可用于识别不同的疾病文本，当接收到待识别的疾病文本时，通过各个疾病文本识别模型对其进行识别，若符合要求，则将其添加至相应的疾病文本库。当然，对于某一待识别疾病文本，可添加至不同的疾病文本库，如当以预设关键字为标准进行模型构建时，某一类型的疾病文本中包括两种或多种疾病类型对应的预设关键字。

需要说明的是，以上仅为本申请所提供的一种实现方式，其应用领域并不唯一，可用于计算机领域、教育领域等多种场合下的文本识别。

作为一种优选实施例，该文本识别方法还可以包括：计算所述文本识别模型的精确度；判断精确度是否达到预设精确度；若否，则返回通过不确定性标准算法对初始未标记样本集进行筛选获得价值样本的步骤进行迭代处理，直至获得满足预设精确度的文本识别模型。

为进一步保证学习模型的精确度，以获得更为精确的文本识别结果，本优选实施例增加以精确度为标准的迭代处理方法，即在获得文本识别模型之后，对其进行精确度计算，以判断其精确度是否达到预设精确度，若没有达到预设精确度，则返回S103进行迭代处理，直至精确度满足预设精确度并结束迭代循环，获得高精度的文本识别模型。其中，对于上述预设精确度的具体取值，依据实际情况进行设定即可，不影响本技术方案的实施。

本申请所提供的文本识别方法，在基于主动学习技术对训练样本进行筛选时，综合考虑了样本的信息价值及其在特征空间中的分布结构，以获得较高质量的、可用于模型训练的样本；于此同时，通过参数共享与样本表达共享，实现了各待训练模型之间的信息共享，从而实现了多个模型的同步训练，由此，即可有效减少训练模型所需要的标记样本开销，并保证各训练任务对应模型之间的相互促进，有效提升了算法的模型优化效率。因此，本申请所提供的文本识别方法在模型训练过程中不仅保证了样本质量，同时还实现了多个文本识别模型的并行训练，在有效提高文本识别准确度的同时，保证了文本识别效率

在上述各实施例的基础上，本申请提供了一种更为具体的文本识别方法：

1、训练样本的初始筛选

假设有n个待执行任务，即n个待训练模型，为第k个任务的样本集合，样本集合X_k中包含大量未标记样本与少量标记样本，其中，大量未标记样本组成初始未标记样本集合，少量标记样本组成初始标记样本集合；x_ik为第k个任务样本集合中的第i个样本，n_k为第k个任务样本集合中的样本个数，x_ik∈Rⁿ，i＝1,2,...,n_k，k＝1,2,...,n，y_ik∈{1,-1}是第k个任务样本集合中第i个样本的类别标签。首先，通过各待训练任务中的少量标记样本构建对应的初始分类器f₀,f₁,...,f_k；

进一步，根据不确定性标准筛选获得第一标记样本集：

SV_k＝{x_ik|f_k(x_ik)∈[-1,+1]}；

其中，SV_k是根据不确定性标准从第k个任务的初始未标记样本集中筛选出来的样本集合，对其中的各个样本进行标记后即可获得上述第一标记样本集；f_k(x_ik)是第k个任务中第i个样本的决策函数值。

2、训练样本的二次筛选

经过上述不确定性标准筛选样本之后，通过下式可将各任务中剩余的未标记样本划分为两部分：

其中，是位于w·x+b＝1平面正类一侧的未标记样本的集合，是位于平面w·x+b＝-1平面负类一侧的未标记样本的集合；w为对应超平面的法向量，b为对应超平面的偏移向量。上述用于进行不确定性标准筛选的公式筛选的为位于平面w·x+b＝1和平面w·x+b＝-1之间的样本的集合，可保证筛选出的样本对分类器的位置起到最大的纠正效果。

(1)基于聚类多样性标准的样本筛选

对上述和分别采用micro-kernel k-means方法进行样本聚类，将划分为K＝h个不同的簇类似地，将划分为K＝h个不同的簇其中，每个簇中包含的样本都具有相似的特征信息，所以可以从每个簇中筛选出一个决策值的绝对值|f_k(x)|最小的样本作为每个簇的代表样本，由此即可保证从每个簇中选出的代表样本与分类平面的距离最短，从而确保这些样本本身包含的信息对分类平面的位置有很大影响。此外，由于筛选出的样本来自不同的簇，可有效确保这些样本包含的信息不冗余。

(2)基于空间划分多样性的样本筛选

通过以下公式对和中的样本进行划分：

其中，m表示对和进行特征区间划分后所获得的特征区间的数量，表示对划分后每个特征区间的长度，表示对划分后每个特征区间的长度；和分别表示第k个分类任务中最大和最小的决策值，即离第k个任务分类平面最远的正负样本决策值；和分别表示对和划分后，第i个区间的下边界；和分别表示对和划分后，第i个区间的上边界。

由此，空间划分多样性标准根据样本与分类平面的距离将位于平面w·x+b＝1和平面w·x+b＝-1之外的样本分别划分为m个特征区间，从每个特征区间内筛选出一个与分类平面距离最短的样本，即可确保在维持了数据分布的情况下，筛选出的样本既包含有助于优化分类器(学习模型)的信息，又不会造成样本冗余。

3、统一SVM目标函数的构建

多任务学习的目标旨在同一特征空间为各个任务找到对应的分类超平面w_k·x_ik+b_k＝0，现在将各分类超平面的法向量w_k划分为两部分，第一部分为所有任务共享的共同均值向量w₀，第二部分为针对某个特定任务的特定向量v_k，经过参数划分后，多任务支持向量机的目标函数如下：

其中，w_k为第k个任务的分类超平面的法向量，b_k为第k个任务的分类超平面的偏移向量，C表示平衡误差的惩罚参数，λ_k为控制任务优先级的参数，ξ_i是第k个任务样本集合中第i个训练样本的松弛变量；其中：

其中，α_ik表示第k个任务样本集合中的第i个样本的拉格朗日乘子；现定义核函数k(x_ik,x)＝<x_ik,x>，则第k个任务的决策函数为：

基于上述阐述，以下对基于两种结合算法进行样本筛选完成文本分类模型构建的具体过程进行详细介绍：

1、基于不确定性标准与聚类多样性标准结合算法(CLU-CBD算法)的文本分类模型构建

(1)根据各待训练任务的初始标记样本集计算得到对应的初始文本分类模型；

(2)针对每个任务，根据不确定性标准对相应的未标记样本进行筛选，并对筛选出来的样本进行标记加入到初始标记样本集中，获得第一标记样本集；

(3)对剩余的未标记样本集采用微核k-means算法进行聚类，将其划分为多个簇，从每个簇中筛选出一个决策值的绝对值|f_k(x)|最小的样本作为每个簇的代表样本，将这些代表样本进行标记并加入到第一标记样本集中，获得第二标记样本集；

(4)利用第二标记样本集重新进行训练各初始文本分类模型，获得文本分类模型；

(5)评估各文本分类模型的精确度稳定性，判断是否继续迭代算法，若需迭代，则继续执行步骤(6)，否则算法终止；

(6)对每个任务重复步骤(2)至步骤(5)。

2、基于不确定性标准与空间划分多样性标准结合算法(CLU-PBD算法)的数据分类器构建

(2)针对每个任务，根据不确定性标准对各相应的未标记样本进行筛选，并对筛选出来的样本进行标记加入到初始标记样本集中，获得第一标记样本集；

(3)对剩余的未标记样本集采用空间划分算法将其划分为多个特征区间，从每个非空特征区间中筛选出一个决策值的绝对值|f_k(x)|最小的样本作为每个特征区间的代表样本，将这些代表样本进行标记并加入到第一记样本集中，获得第二标记样本集；

(4)利用第二标记样本集重新进行训练各文本分类模型，获得文本分类模型；

(6)对每个任务重复步骤(2)至步骤(5)。

基于上述流程，完成文本分类模型的并行训练，进一步，当接收到待识别文本时，即可通过以上文本分类模型对该待识别文本进行识别处理，以确定文本类别。

进一步，本申请提供了一种针对文本分类模型准确率的测试方法。

具体的，实验采用的数据集为20Newsgroup数据集，该数据集包含7大文本类别数据：alt、comp、misc、rec、sci、soc和talk，这7大类别总共包含20个子类别，每个子类别包含1000个文本样本。由于alt、soc和misc这三个类别的文本数据量太少，故暂且将这三大类别的数据从数据集中移除。进一步，剩余的4大类别的文本数据被进一步划分为多任务的文本数据，例如用comp和sci生成四任务文本数据集，选取comp中的一个子类别文本数据作为正类样本数据，选取sci中的一个子类别文本数据作为负类样本数据，以此方式构成一个分类任务，其他三个分类任务采取类似的方式生成。其中，以上四个分类任务的正样本数据与负样本数据分别来自同一大类，有效保证任务间的关联性。为了充分比较本申请所提方法和其他基于主动学习的文本识别方法的识别性能，对本发明所提方法和其它文本识别方法进行性能对比，以分类准确率为标准，具体实验结果参见表1：

表1各算法识别平均准确率对比表

算法	RANDOM	VIO	CLU-CBD	CLU-PBD
					准确率	0.703	0.726	0.775	0.764

显而易见的，本申请所提出的CLU-CBD算法和CLU-PBD算法，在训练样本数量相同的条件下，其识别准确率与其它两种方法相比稍有提升。

本申请实施例所提供的文本识别方法，通过将主动学习与多任务学习相结合解决了多任务分类处理的问题，首先，通过主动学习方法对训练样本进行筛选，保证训练样本的质量；同时，通过参数共享与样本表达共享，实现各任务间的信息共享，减少了训练分类模型所需要的标记样本开销，并保证了各任务的分类模型相互促进，提升了算法的模型优化效率。由此，在模型训练过程中有效实现了多种任务分类模型的并行训练，进一步通过训练模型实现了多任务的并行处理，极大的提升了模型训练效率和任务处理效率。

为解决上述问题，请参考图2，图2为本申请所提供的一种文本识别装置的结构示意图，该文本识别装置可包括：

样本获取模块10，用于获取各待训练识别模型对应的初始标记样本集和初始未标记样本集；

初始训练模块20，用于根据各所述待训练识别模型对应的预设识别标准，通过初始标记样本集对各待训练识别模型进行训练，获得各初始文本识别模型；

初始筛选模块30，用于通过不确定性标准算法对初始未标记样本集进行筛选获得价值样本，将标记后的价值样本添加至初始标记样本集，获得第一标记样本集；其中，将剔除价值样本后的初始未标记样本集记为第一未标记样本集；

二次筛选模块40，用于以各待训练识别模型对应的分类超平面为标准，对第一未标记样本集进行划分，并通过预设标准算法对划分后的第一未标记样本集进行筛选获得代表样本，将标记后的代表样本添加至第一标记样本集，获得第二标记样本集；

二次训练模块50，用于通过第二标记样本集对各初始文本识别模型进行训练，获得各文本识别模型；

文本识别模块60，用于当接收到待识别文本时，通过各文本识别模型对待识别文本进行识别，当待识别文本属于文本识别模型对应的文本类别时，将待识别文本添加至文本识别模型对应的文本库。

作为一种优选实施例，上述初始训练模块20可具体用于对初始未标记样本集中的每个未标记样本进行决策值计算，并将决策值在预设区间内的未标记样本作为价值样本，将标记后的价值样本添加至初始标记样本集，获得第一标记样本集。

作为一种优选实施例，该文本识别装置还可包括：

迭代判断模块，用于计算文本识别模型的精确度；判断精确度是否达到预设精确度；若否，则返回通过不确定性标准算法对初始未标记样本集进行筛选获得价值样本的步骤进行迭代处理，直至获得满足预设精确度的文本识别模型。

对于本申请提供的装置的介绍请参照上述方法实施例，本申请在此不做赘述。

为解决上述问题，请参考图3，图3为本申请所提供的一种文本识别设备的结构示意图，该文本识别设备可包括：

存储器1，用于存储计算机程序；

处理器2，用于执行计算机程序时实现如下步骤：

获取各待训练识别模型对应的初始标记样本集和初始未标记样本集；根据各待训练识别模型对应的预设识别标准，通过初始标记样本集对各待训练识别模型进行训练，获得各初始文本识别模型；通过不确定性标准算法对初始未标记样本集进行筛选获得价值样本，将标记后的价值样本添加至初始标记样本集，获得第一标记样本集；其中，将剔除价值样本后的初始未标记样本集记为第一未标记样本集；以各待训练识别模型对应的分类超平面为标准，对第一未标记样本集进行划分，并通过预设标准算法对划分后的第一未标记样本集进行筛选获得代表样本，将标记后的代表样本添加至第一标记样本集，获得第二标记样本集；通过第二标记样本集对各初始文本识别模型进行训练，获得各文本识别模型；当接收到待识别文本时，通过各文本识别模型对待识别文本进行识别，当待识别文本属于文本识别模型对应的文本类别时，将待识别文本添加至文本识别模型对应的文本库。

对于本申请提供的设备的介绍请参照上述方法实施例，本申请在此不做赘述。

为解决上述问题，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时可实现如下骤：

该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

对于本申请提供的计算机可读存储介质的介绍请参照上述方法实施例，本申请在此不做赘述。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的文本识别方法、装置、设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围要素。

Claims

1.一种文本识别方法，其特征在于，包括：

2.如权利要求1所述的文本识别方法，其特征在于，所述通过不确定性标准算法对所述初始未标记样本集进行筛选获得价值样本，包括：

3.如权利要求2所述的文本识别方法，其特征在于，所述以各所述待训练识别模型对应的分类超平面为标准，对所述第一未标记样本集进行划分，并通过预设标准算法对划分后的第一未标记样本集进行筛选获得代表样本，包括：

计算各所述簇中每个未标记样本的决策值的绝对值；

4.如权利要求2所述的文本识别方法，其特征在于，所述以各所述待训练识别模型对应的分类超平面为标准，对所述第一未标记样本集进行划分，并通过预设标准算法对划分后的第一未标记样本集进行筛选获得代表样本，包括：

计算各所述特征区间中每个未标记样本的决策值的绝对值；

5.如权利要求1至4任意一项所述的文本识别方法，其特征在于，所述通过所述第二标记样本集对各所述初始文本识别模型进行训练，获得各文本识别模型之后，还包括：

计算所述文本识别模型的精确度；

判断所述精确度是否达到预设精确度；

6.一种文本识别装置，其特征在于，包括：

7.如权利要求6所述的文本识别装置，其特征在于，所述初始训练模块具体用于对所述初始未标记样本集中的每个未标记样本进行决策值计算，并将所述决策值在预设区间内的未标记样本作为所述价值样本，将标记后的价值样本添加至所述初始标记样本集，获得所述第一标记样本集。

8.如权利要求6或7所述的文本识别装置，其特征在于，还包括：

9.一种文本识别设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至5任意一项所述的文本识别方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任意一项所述的文本识别方法的步骤。