CN111611390A

CN111611390A - 一种数据处理方法及装置

Info

Publication number: CN111611390A
Application number: CN202010530028.1A
Authority: CN
Inventors: 朱标; 章鹏; 崔阳
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-06-11
Filing date: 2020-06-11
Publication date: 2020-09-01
Anticipated expiration: 2040-06-11
Also published as: CN111611390B

Abstract

一种数据处理方法及装置，所述方法包括：迭代执行以下过程，直到达到迭代终止条件：对特征词集合中的特征词进行近似词扩展，并将得到的扩展特征词添加至所述特征词集合；基于添加了扩展特征词后的所述特征词集合中的特征词构建若干训练样本；其中，所述若干训练样本中的部分训练样本被标记了样本标签；基于主动学习的方式，对所述若干训练样本，进行迭代训练，得到用于对目标对象进行分类的分类模型；其中，迭代终止条件包括：本轮迭代训练得到的分类模型，相对于上一轮迭代训练得到的分类模型的性能增益小于预设增益阈值。

Description

一种数据处理方法及装置

技术领域

本说明书涉及计算机应用领域，尤其涉及一种数据处理方法及装置。

背景技术

随着信息化的发展，互联网中包含着越来越多的企业的业务信息，监管机构可以获取并分析这些信息，进而判断对应的企业是否属于违法违规企业。

通常，人们可以通过机器学习的方式，构建并训练分类模型，以根据企业业务信息确定企业是否属于违法违规企业；但是，传统的机器学习方法为了保证生成模型的准确度，在模型训练阶段需要使用大量的人工标注的样本，因此会消耗大量的人力资源。

发明内容

有鉴于此，本说明书公开了一种数据处理方法和装置。

根据本说明书实施例的第一方面，公开了一种数据处理方法，包括：

迭代执行以下过程，直到达到迭代终止条件；其中，所述迭代终止条件包括：本轮迭代训练得到的分类模型，相对于上一轮迭代训练得到的分类模型的性能增益小于预设增益阈值：

对特征词集合中的特征词进行近似词扩展，并将得到的扩展特征词添加至所述特征词集合；

基于添加了扩展特征词后的所述特征词集合中的特征词构建若干训练样本；其中，所述若干训练样本中的部分训练样本被标记了样本标签；

基于主动学习的方式，对所述若干训练样本，进行迭代训练，得到用于对目标对象进行分类的分类模型。

根据本说明书实施例的第二方面，公开了一种数据处理装置，包括：

迭代控制模块，迭代执行以下过程，直到达到迭代终止条件；其中，所述迭代终止条件包括：本轮迭代训练得到的分类模型，相对于上一轮迭代训练得到的分类模型的性能增益小于预设增益阈值：

近似词扩展模块，对特征词集合中的特征词进行近似词扩展，并将得到的扩展特征词添加至所述特征词集合；

训练样本构建模块，基于添加了扩展特征词后的所述特征词集合中的特征词构建若干训练样本；其中，所述若干训练样本中的部分训练样本被标记了样本标签；

分类模型训练模块，基于主动学习的方式，对所述若干训练样本，进行迭代训练，得到用于对目标对象进行分类的分类模型。

以上技术方案中，一方面，由于在训练阶段采用了主动学习的方式进行模型训练，因此，训练样本中可以只有一部分样本被标记样本标签，所以无需人工对所有训练样本进行标记，降低了模型训练过程中的人工成本；

另一方面，由于采用了近义词扩展的方式对特征词集合进行了补充，因此可以基于数量较少的初始样本生成数量丰富的训练样本，有助于提高分类模型的精确度和覆盖度。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本说明书的实施例，并与说明书文本一同用于解释原理。

图1是本说明书示出的一利用分类模型对企业进行分类的流程示例图；

图2是本说明书示出的一数据处理方法的流程示例图；

图3是本说明书示出的一主动学习方法进行模型训练的流程示例图；

图4是本说明书示出的一迭代过程中特征词集和分类模型的变化示例图；

图5是本说明书示出的一倾向性指标区间划分的示例图；

图6是本说明书示出的一数据处理装置的结构示例图；

图7是本说明书示出的一用于数据处理的计算机设备的结构示例图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案，下面将结合本说明书一个或多个实施例中的附图，对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是一部分实施例，而不是全部的实施例。基于本说明书一个或多个实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的系统和方法的例子。

在本说明书使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本说明书旨在提出一种结合近似词扩展与主动学习建模技术的数据处理方法，以降低分类模型训练过程中对训练样本进行标记所消耗的人力成本。

通常，人们可以通过机器学习的方式，构建并训练分类模型，以根据企业业务信息确定企业是否属于违法违规企业；请参见图1，图1为本说明书示出的一种相关技术中较为常见的利用分类模型对企业进行分类的流程示例图。

如图1所示，在此流程中，通常可以从已有的企业业务信息取出一部分作为训练集，在人工对其进行样本标记(例如，判定企业业务信息A对应的企业确为违法违规企业后，将企业业务信息A标记为正样本)之后，即可进行分类模型的训练，并使用同样来自于上述已有的企业业务信息的测试集来验证该分类模型的性能；如果其分类结果与实际分类重合度达到一定条件，则可以认为该分类模型即为一可用的分类模型。

但是，显而易见的是，上述模型训练阶段需要使用大量的人工标注的样本，因此需要消耗大量的人力资源来对样本进行标注；而如果为了节省人力资源，采用较小容量的样本进行模型训练，则有可能影响最终生成的分类模型的精确度和覆盖度，亦不能满足实际需求。因此，如何兼顾模型的精确度、覆盖度，以及模型训练过程中对人力的消耗，是一个亟待解决的问题。

可以理解的是，上述问题不仅存在于上述用于判断企业是否数据违法违规企业的分类模型的训练过程中，而是存在于几乎所有的分类模型的训练过程中。因此，如果能够解决上述问题，则可为需要训练分类模型的诸多领域带来较为明显的人力成本节省效果。

基于此，本说明书提出一种首先将特征词集合中的特征词进行近义词扩展，以扩展后的特征词构建训练样本，再通过主动学习的方式进行模型训练以得到分类模型，并以迭代方式执行上述过程，直至分类模型的性能满足需求的技术方案。

在实现时，初始状态的特征词集合可以采用少量能够用于构建训练样本的特征词组成的集合，并通过多次迭代中的近似词扩展步骤完成扩充；而经过近似词扩展的特征词，即可构建出更丰富的训练样本，而只需对其中部分训练样本标记样本标签，即可通过主动学习的方式训练得到一个用于对目标对象进行分类的分类模型；而选用分类模型的性能增益作为迭代停止条件，则可在模型训练趋于稳定的情况下及时停止迭代。

在以上技术方案中，一方面，由于在训练阶段采用了主动学习的方式进行模型训练，因此，训练样本中可以只有一部分样本被标记样本标签，所以无需对所有训练样本进行标记，降低了模型训练过程中的人工成本；

下面，本说明书将通过具体实施例，并结合具体的应用场景对上述技术方案进行描述。

请参考图2，图2是本说明书示出的一数据处理方法的流程示例图，该方法执行以下步骤：

S201，迭代执行以下过程，直到达到迭代终止条件；其中，所述迭代终止条件包括：本轮迭代训练得到的分类模型，相对于上一轮迭代训练得到的分类模型的性能增益小于预设增益阈值：

S202，对特征词集合中的特征词进行近似词扩展，并将得到的扩展特征词添加至所述特征词集合；

S203，基于添加了扩展特征词后的所述特征词集合中的特征词构建若干训练样本；其中，所述若干训练样本中的部分训练样本被标记了样本标签；

S204，基于主动学习的方式，对所述若干训练样本，进行迭代训练，得到用于对目标对象进行分类的分类模型。

上述目标对象可以包括，任意的需要通过将包含特征词的文本输入分类模型来进行分类的对象，例如需要通过业务信息辨别是否运营违法违规业务的企业，需要通过字符串构成来辨别是否为恶意链接的URL，需要通过帖子文本来辨别是否嵌入广告的论坛帖子，等等；本领域技术人员可以根据具体需求，进行具体目标对象的选择，本说明书无需进行具体限定。

上述特征词包括，以文本形式存在的，能够用于构建上述训练样本的字、词语、句子等；通常，可以借助分词算法，从现有的训练样本中获取特征词，例如在上述通过业务信息辨别是否运营违法违规业务的企业的情景下，上述特征词即可以是通过分词算法从对应的企业的业务描述信息中提取的字、词语、句子等等；可以理解的是，上述特征词也可以基于现有的词库等途径完成导入，或者根据具体需求由开发者直接输入，因此本说明书对于特征词的来源不做具体限定。

可以理解的是，上述特征词，事实上也可以包括单字或者句子，而不仅限于狭义的“词语”；继续以上述通过业务信息辨别是否运营违法违规业务的企业的情景为例，在实际应用中，某些涉及非法借贷的公司的业务描述信息中即可能共有诸如“当天打款”、“只需身份证和手机号”等确实作为一个整体具有特定语义、但实际上不属于狭义的词语的内容。

上述性能增益，指用于评价分类模型性能的指标的变化量；具体实现中，可以采用模型的精确率、召回率，或者诸如F1-score等指标用来评价分类模型的性能，并通过做差、取比值等计算方式体现该指标的变化量来得到上述性能增益的数值；例如，可以设定该分类模型的精确率的变化量＜0.3％时终止迭代。上述统计指标的选取，以及对应的数学运算方式，本领域技术人员可以根据实际需求自行确定，本说明书不作具体限定。

此外，可以理解的是，对于上述判定终止迭代的条件，也可以设置一定的容忍次数，以保证分类模型确实达到了应当终止迭代的程度；例如，设定该分类模型的精确率的变化量＜0.3％，连续三次后终止迭代，等等。

在本说明书中，整体上可以通过迭代的方式完成上述数据处理任务，并通过一定的迭代终止条件来控制整个迭代过程的继续或者终止；具体而言，上述迭代终止条件可以包括，本轮迭代训练得到的分类模型，相对于上一轮迭代训练得到的分类模型的性能增益小于预设增益阈值；如果上述性能增益小于预设的增益阈值，则说明最近的一次迭代并没有带来较为理想的性能增益，进一步则可以做出推断：如果继续进行迭代，很有可能无法得到理想的性能增益；因此可以终止迭代，并将最新训练得到的分类模型作为最终的分类模型。

在具体实现中，上述迭代终止条件显然可以不止包括上述与性能增益有关的一个条件，而是可以由多个迭代终止条件共同组成；其中，各个终止条件之间生效的逻辑关系，既可以是逻辑或的关系，也可以是逻辑与的关系，或者其他由本领域技术人员根据具体需求自行设定的逻辑关系，对此，本说明书无需进行具体限定；

例如，本领域技术人员可以设定，只有在模型的预测准确率达到预设阈值，并且在迭代次数达到预设阈值，和本轮迭代训练得到的分类模型，相对于上一轮迭代训练得到的分类模型的性能增益小于预设增益阈值这两个条件中任一者满足的情况下，即可视为达到迭代终止条件。

可以理解的是，上述迭代终止条件不仅可以针对预测模型进行设定，还可以针对上述特征词集合进行设定；由于在迭代的过程中，需要对上述特征词集合中的特征词进行近似词扩展，并将得到的扩展特征词加入特征词集合，因此，特征词集合在多次迭代的过程中，大概率会出现变化，因此也可以针对该特征词集合的变化来设定迭代的终止条件。

在示出的一种实施方式中，上述迭代终止条件还可以包括特征词集合中特征词的数量，相对于上一轮迭代的增量小于预设阈值；在该条件被满足的情况下，很可能说明近似词扩展并未给特征词集合带来足够多的扩展特征词；进一步地，由于没有足够多的新特征词，因此可以推断训练得到的分类模型相对于上一次迭代也不会有显著进步，故而可以选择终止上述迭代过程。

在本说明书中，可以在迭代过程中，对特征词集合中的特征词进行近似词扩展，以获得对应的扩展特征词，并进一步将得到的扩展特征词加入到上述特征词集合；具体实现时，上述近似词扩展的操作可以在一个预设的特征词库中完成，也可以基于诸如词语构造的算法完成；在近似词扩展的过程中，对于近似词的判定算法，可以采用语义识别的算法，也可以采用字符串匹配的算法，还可以采用基于词向量的算法。对于以上设计细节，本领域技术人员可以根据具体需求自行确定实现方式，本说明书不作具体限定。

在示出的一种实施方式中，可以首先计算特征词集合中的特征词，与预设的特征词库中的特征词之间的相似度；如果特征词库中的任意一个目标特征词，与上述特征词集合中的某一特征词的相似度达到阈值，即可将该目标特征词作为该特征词集合中的上述特征词对应的扩展特征词。

在示出的一种实施方式中，上述计算相似度的算法可以是基于词向量的算法；具体而言，可以在计算相似度前，首先对上述特征词集合和预设的特征词库中的特征词分别进行词向量处理，得到与上述特征词集合中的特征词对应的词向量；以及，与上述预设的特征词库中的特征词对应的词向量；

进一步地，上述计算相似度的方式可以是，计算上述特征词集合中的特征词对应的词向量，与上述预设的特征词库中的特征词对应的词向量之间的距离；若预设的特征词库中的任一目标特征词对应的词向量，与上述特征词集合中的特征词对应的词向量的向量距离小于阈值，即可确定目标特征词与上述特征词集合中的特征词的相似度达到阈值。

可以理解的是，基于词向量算法，种判断相似度达到阈值的方法不止上面一种；例如，词向量之间的向量夹角亦可以一定程度上反映对应的特征词之间的语义相关性，因此也可以设定，预先通过余弦公式等方式，计算上述特征词集合中的特征词对应的词向量，与上述预设的特征词库中的特征词对应的词向量之间的夹角；若预设的特征词库中的任一目标特征词对应的词向量，与上述特征词集合中的特征词对应的词向量的向量夹角小于阈值，即可确定目标特征词与上述特征词集合中的特征词的相似度达到阈值。

因此，本领域技术人员可以在上述基础上做出其他类似的设计，本说明书对此均不进行具体限定。

在本说明书中，上述预设的特征词库可以根据具体需求进行定制，而不一定采用最大、最全的词库；例如，在对医院的分析中，对应的特征词中存在大量的医学词汇，因此，用于近似词扩展的预设的特征词库即可以为一医学词库；再例如，在对类金融机构进行分析时，对应的特征词中存在大量的金融学词汇，因此，用于近似词扩展的预设的特征词库即可以为一金融学词库。

在示出的一种实施方式中，上述预设的特征词库中的特征词所属的业务场景，与上述特征词集合中的特征词所属的业务场景相同。采用此方案，一方面可以缩小预设的特征词库的体积，减小词向量匹配时的计算量，从而提高运行效率；另一方面，由于该特征词库与上述特征词集合所属的业务场景相同，所以计算出的词向量能够更细微地体现特征词的语义，即提高了词向量的精确度，有利于提高近似词扩展的精度。

在本说明书中，在将扩展特征词添加到特征词集合后，即可基于特征词集合中的特征词，构建若干训练样本；其中，由于接下来需要通过主动学习的方式进行模型训练，因此上述若干训练样本中，可以只有一部分被标记了样本标签；具体构建训练样本的方式，可以根据具体需求，由本领域技术人员自行确定，本说明书不作具体限定。

在示出的一种实施方式中，对应于上述对企业根据业务类型进行分类的情景，上述目标对象可以包括企业，而上述特征词则可以包括针对企业的业务信息进行切分得到的特征词，上述样本标签包括与企业对应的业务类型标签；

在此种情景下，上述构建若干训练样本的方式，可以是对特征词集合中的特征词进行特征词重组，进而生成若干业务信息作为训练样本。

进一步地，在上述整个迭代过程执行完毕后，即可将待识别业务类型的企业的业务信息作为预测样本，输入训练完成的上述分类模型进行分类计算，并根据上述分类模型的输出分类，确定上述企业的业务类型。

在本说明书中，可以基于主动学习的方式，对上述构建出的若干训练样本进行迭代训练，从而得到用于对目标对象进行分类的分类模型。具体而言，主动学习的常规流程通常分为模型训练、样本选择、重新标记三大部分，迭代执行。主动学习的详细实现方式可以参见相关技术资料记载，本领域普通技术人员可以基于上述描述完成具体的实现方案设计，本说明书不作具体限定。

作为示例，请参见图3，图3是本说明书示出的一主动学习方法进行模型训练的流程示例图。

在该示例训练过程中，可以首先使用已标记了样本标签的训练样本训练得到一个分类模型；然后，可以使用该分类模型对未标记的训练样本进行预测，并基于预测结果以及预设的选择算法，选择出未标记样本标签的训练样本；最后，将选择出的未标记样本标签的训练样本提交给督导者，以完成样本标记，并加入到已标记的训练样本中；迭代上述训练过程，直至达到预设的训练终止条件。

其中，分类模型的具体架构，以及基于已标记的训练样本进行训练的过程，可以参见相关技术记载，本说明书不作具体限定；从未标记的训练样本中，选择出需要进行标记的未标记的训练样本的具体算法，本说明书也不作具体限定；督导者的任务可以由迁移学习得到的AI完成，也可以由具有专家经验的人类完成，又或者两者进行结合来完成，本说明书亦不作详细限定。

作为示例，在主动学习中，选择未标记的训练样本的方法通常可以包括基于修正错误的算法，以及基于不确定性的算法；具体而言，

一种基于修正错误的算法可以是，如果经过人工标记，发现上述分类模型判定为正样本的训练样本实际上是一个负样本，或者反之，则该错误判断对应的训练样本，在获得正确的样本标签后，则具有重新纳入循环、参与训练的价值，因而可以将其选中；

一种基于不确定性的算法可以是，如果上述分类模型对于某些训练样本的分类判断持以不确定的态度，例如，输出值为1时为正样本，输出值为0时为负样本，但对于某训练样本的分类结果输出值为0.5，因此该训练样本存在较大的不确定性，因此有提交督导者进行标记，并重新纳入循环、参与训练的价值，因此，可以将其选中。

本领域技术人员可以根据以上内容，自行设计其他类似的选择算法，以及诸如人工核验等改进步骤，本说明书无需进行进一步限定。

在示出的一种实施方式中，在将近似词扩展的结果添加到上述特征词集后，还可以对得到补充后的特征词集进行进一步补充，以取得进一步扩大特征词的覆盖度的效果；具体而言，可以首先确定从预设的样本库中的样本中提取到的特征词对于待训练的分类模型对应的各个输出分类的倾向程度，然后再将其中对于各个输出分类的倾向程度不一致的特征词添加到上述特征词集合中。

上述预设的样本库，可以是诸如企业的业务信息库等，对应于若干目标对象，包含了若干样本的样本库，其中，该样本库中的样本可以被预先划分为对应于所述各输出分类的样本集合；实际实现中，上述将样本划分出各个样本集合的具体形式，可以是将其存储入特定的数据结构中，也可以是为其标注对应各个分类的样本标签，本说明书不作具体限定。

上述从预设的样本库中的样本中提取的特征词，可以是通过分词算法等方法，从样本库中的样本中提取到的特征词，本申请对其提取方法无需进行具体限定，本领域技术人员可以根据实际应用情况自行确定提取算法。

上述倾向程度，可以与个特征词，出现在某一类的样本中的概率相关；例如，某个词语在非法集资企业的业务信息中出现的概率为85％，那么就可以说，这个词语对于非法集资企业的倾向性较强；而如果这个词语在合法集资企业的业务信息中出现的概率为10％，那么就可以说，这个词语对于非法集资企业的倾向性，远高于对于合法集资企业的倾向性；如果上述模型就是一个辨别非法集资企业，与合法集资企业的二分类模型，那么可以得出推论：由于该词语对于上述两个分类的倾向程度不一致，因此该词语在该分类中可以起到显著作用，因此可以将其添加到上述特征词集合中。

在示出的一种实施方式中，为了确定上述提取到的特征词，对待训练的分类模型对应的各输出分类的倾向程度，可以通过训练中间分类模型以进行识别、标记的方式，首先将预设的样本库中的样本划分为对应于所述各输出分类的样本集合。

具体而言，可以首先基于添加了扩展特征词后的特征词集合中的特征词，构建若干中间训练样本；并使上述若干中间训练样本中的部分训练样本被标记了样本标签；再基于主动学习的方式，对上述若干中间训练样本进行迭代训练，得到用于对目标对象进行分类的中间分类模型；

然后，进一步基于上述中间分类模型对上述预设的样本库中的样本进行分类计算，即可根据分类结果，将预设的样本库中的样本划分为与上述中间分类模型的各输出分类对应的样本集合；最后，可以统计上述提取到的特征词，分别在得到的各个样本集合中出现的次数，便可以根据出现次数，计算得到用于表征特征词对待训练的分类模型对应的各个输出分类的倾向程度的倾向性指标。

在上述步骤中，采用主动学习方式训练分类模型的具体方法可以参见前述内容，此处不再赘述；可以理解的是，中间分类模型的具体训练方法，与前述的分类模型的具体训练方法，可以相同，也可以不同；本领域技术人员可以根据具体的需求自行完成相关设计，本说明书不作进一步限定。

可以理解的是，训练中间分类模型的目的在于，以当前最新的分类模型对预设的样本库中的样本进行分类识别，以保证从中提取的、可以加入到特征词集合中的特征词具有较高的准确率；但实际上，为了节省计算资源，也可以直接调用上一轮迭代训练得到的分类模型作为中间分类模型，用于对预设的样本库中的样本进行分类识别。因此，本领域技术人员可以根据具体情况，自行确定中间分类模型的来源，并进一步完成相关的设计，本说明书不作进一步限定。

请参见图4，图4是本说明书示出的一迭代过程中特征词集和分类模型的变化示例图；在该示例中，采用了前述提及的基于词向量的算法进行近似词扩展，并采用了前述提及的训练中间分类模型的方式进行倾向性指标的计算。

在该示例中，特征词集经过近似词扩展以及补充，理论上其内容应当是增多的；而再经过按照特征词倾向性指标进行补充，其中的内容则可能会进一步增多。由于近似词扩展得到的扩展特征词，将是特征词集合中现有的特征词的近似词，而根据倾向性指标对特征词集合进行补充则会进一步补充对于各个分类倾向程度不相似的特征词，因此，经过这两个步骤后，特征词集合中的特征词的丰富程度可能会显著提升；

经过迭代后，特征词集合中会存在更多对于各个分类的倾向程度差异明显的、对于分类的价值较高的特征词；因此，基于这部分特征词去构建训练样本，并训练分类模型，相对于使用没有进一步补充的特征词的方式得到的分类模型而言，会具有更好的分类效果。

前述内容曾提及，特征词集合中，特征词的数量，相对于上一轮迭代的增量也可以作为判断是否可以终止迭代的条件；在上述例子中，近似词扩展的步骤理论上会增加特征词集合中的特征词，而基于倾向程度的特征词补充步骤也会增加其中的特征词，因此，如果特征词集合中特征词的数量相对于上一轮迭代的增量小于预设的阈值，即可说明特征词集合中的特征词的数量已经趋于稳定；

进而可以推断出，即使继续进行迭代，特征词集合中的特征词也不会再发生显著增减，所以训练出的分类模型也应当不再有明显变化；因此，有理由及时终止迭代，减少算力浪费。

在本说明书中，对应于不同的分类模型，计算倾向性指标的方式也可以有所不同；例如，针对二分类模型，可以采用对特征词在正样本集合中的出现次数，和在负样本集合中的出现次数做差的方式，得到特征词的倾向性指标，并将该指标体现在一维数轴上；而对于四分类模型，则可以用平面直角坐标系的方式，用四个象限来体现对于四个输出分类的倾向程度；本领域技术人员可以根据具体需求，自行设计相关的计算规则，本说明书对此不进行具体限定。

可以理解的是，计算倾向性指标仅仅是确定特征词对于不同分类的倾向程度是否一致的一种方式，本领域技术人员也可以针对倾向程度的不同表现形式，适应性调整判断其是否一致的算法；

例如，在上述倾向程度通过高、中、低三个档位来表现的情况下，就可以通过直接判断档位是否相同，来确定对于不同分类的倾向程度是否一致；在上述倾向程度直接用分别属于各输出分类的多个概率值来表现的情况下，所谓的倾向程度不一致，就是指属于各输出分类的概率的差值，达到阈值等等。因此，本说明书对于确定特征词对于不同分类的倾向程度是否一致的方式无需进行进一步限定。

在示出的一种实施方式中，当上述分类模型为一个二分类模型时，上述与中间分类模型的各输出分类对应的样本集合即包括正样本集合以及负样本集合；在此例中，可以采用对特征词在正样本集合中的出现次数，和在负样本集合中的出现次数取比值的方式，得到特征词的倾向性指标；如果该比值在1附近，即可以近似理解为特征词对于不同分类的倾向程度一致。

可以理解的是，如果正样本和负样本的数量存在较大差异，例如，正样本的数量是负样本数量的1/3，那么，一个对于正负样本的倾向程度相似的特征词，按上述规则计算出的倾向性指标也会在1/3附近，而不是1附近；因而本领域技术人员也能够想到，如果将各个分类的样本的数量作为修正参数，即可将对于正负样本的倾向程度相似的特征词的倾向性指标修正到1附近，以便统计和计算。

也可以理解的是，上述引入各个分类的样本的数量作为修正参数，实质上可以视为将对特征词在正样本集合中的出现次数和在负样本集合中的出现次数取比值，进一步优化为了对特征词在正样本集合中的出现频率和在负样本集合中的出现频率取比值，其内在本质并无差别。

此外，上述判断中的“附近”，可以理解为，两者的差值小于预设的阈值，而该阈值可以根据数据统计选取合适的值，也可以由开发人员根据经验指定；对此，本领域技术人员显然容易想到其他判断两个数值是否接近的算法和标准，本说明书无需进行进一步限定。

在示出的一种实施方式中，上例中作为特征词的倾向性指标的比值，可以体现在一维数轴上，该数轴可以从大到小分为三个区间：正样本区间、中性样本区间、负样本区间，其中，上述正样本区间中的数值大于1，且与1的差值大于阈值；上述中性样本区间中的数值大于或者小于1，且与1的差值小于阈值；上述负样本区间中的数值小于1，且与1的差值大于阈值；显然，上述用于划分上述三个区间的阈值，亦可以根据数据统计选取合适的值，也可以由开发人员根据经验指定，对此本说明书无需进行详细限定；在此种实现方式中，只需将提取到的特征词中，倾向性指标未落入上述中性区间的特征词添加到上述特征词集合，即可完成对于特征词集合的进一步补充。

对于区间的具体划分方式，可以根据具体需求而定；通常，出于对称性的考虑，通过上述两个阈值划分出的区间也应当是相对应的，在上述需要划分区间的倾向性指标是一个比值的情况下，上述两个阈值确定出的区间分界点可以互为倒数，因为这可以更好地体现倍数的关系；但是，上述思想仅仅是一种可选的实现方式，本领域技术人员也可以根据经验，以及数据统计的规律，自行调整上述阈值，以获得更加符合具体需求的区间。

请参见图5，图5是本说明书示出的一倾向性指标区间划分的示例图；在此例中，为了便于观察，数轴上的点为指数方式增长；正样本区间为倾向性指标大于2的区间，负样本区间为倾向性指标小于0.5的区间，中间的为中性样本区间。

假设上述例子中，正负样本集合中样本的数量相当，即次数之比等于频率之比，那么，倾向性指标落入中性区间，意味着对应的特征词在正样本集合中出现的频率，与在负样本集合中出现的频率大致相当，故而可以认为该特征词可能对于正负样本分类的贡献不够大，因此在对特征词集合进行进一步补充时不宜选择这部分特征词；而对于倾向性指标未落入上述中性区间的特征词，则可以认为该特征词对于各个分类的倾向程度不一致，因此可以将其添加到上述特征词集合中。

上述内容即为本说明书针对所述数据处理方法的全部实施例。本说明书还提供了对应的数据处理装置的实施例如下：

请参见图6，图6是本说明书示出的一数据处理装置的结构示例图，该装置包括：

迭代控制模块601，迭代执行以下过程，直到达到迭代终止条件；其中，所述迭代终止条件包括：本轮迭代训练得到的分类模型，相对于上一轮迭代训练得到的分类模型的性能增益小于预设增益阈值：

近似词扩展模块602，对特征词集合中的特征词进行近似词扩展，并将得到的扩展特征词添加至所述特征词集合；

训练样本构建模块603，基于添加了扩展特征词后的所述特征词集合中的特征词构建若干训练样本；其中，所述若干训练样本中的部分训练样本被标记了样本标签；

分类模型训练模块604，基于主动学习的方式，对所述若干训练样本，进行迭代训练，得到用于对目标对象进行分类的分类模型。

在本说明书中，整体上可以通过迭代的方式完成上述数据处理任务，并由迭代控制模块601来控制整个迭代过程的继续或者终止；具体而言，迭代终止条件可以包括，本轮迭代训练得到的分类模型，相对于上一轮迭代训练得到的分类模型的性能增益小于预设增益阈值；如果上述性能增益小于预设的增益阈值，则说明最近的一次迭代并没有带来较为理想的性能增益，进一步则可以做出推断：如果继续进行迭代，很有可能无法得到理想的性能增益；因此可以终止迭代，并将最新训练得到的分类模型作为最终的分类模型。

在具体实现中，上述迭代终止条件显然可以不止包括上述与性能增益有关的一个条件，而是可以由多个迭代终止条件共同组成；其中，各个终止条件之间生效的逻辑关系，既可以是逻辑或的关系，也可以是逻辑与的关系，或者其他由本领域技术人员根据具体需求自行设定的逻辑关系，对此，本说明书无需进行具体限定。

在本说明书中，可以在迭代过程中，由近似词扩展模块602对特征词集合中的特征词进行近似词扩展，以获得对应的扩展特征词，并进一步将得到的扩展特征词加入到上述特征词集合；具体实现时，上述近似词扩展的操作可以在一个预设的特征词库中完成，也可以基于诸如词语构造的算法完成；在近似词扩展的过程中，对于近似词的判定算法，可以采用语义识别的算法，也可以采用字符串匹配的算法，还可以采用基于词向量的算法。对于以上设计细节，本领域技术人员可以根据具体需求自行确定实现方式，本说明书不作具体限定。

在示出的一种实施方式中，近似词扩展模块602可以首先计算特征词集合中的特征词，与预设的特征词库中的特征词之间的相似度；如果特征词库中的任意一个目标特征词，与上述特征词集合中的某一特征词的相似度达到阈值，即可将该目标特征词作为该特征词集合中的上述特征词对应的扩展特征词。

在示出的一种实施方式中，上述计算相似度的算法可以是基于词向量的算法；具体而言，上述装置还可以包括词向量处理模块，对上述特征词集合和预设的特征词库中的特征词分别进行词向量处理，得到与上述特征词集合中的特征词对应的词向量；以及，与上述预设的特征词库中的特征词对应的词向量；

进一步地，近似词扩展模块602可以计算上述特征词集合中的特征词对应的词向量，与上述预设的特征词库中的特征词对应的词向量之间的距离，以得到上述相似度；若预设的特征词库中的任一目标特征词对应的词向量，与上述特征词集合中的特征词对应的词向量的向量距离小于阈值，即可确定目标特征词与上述特征词集合中的特征词的相似度达到阈值。

在本说明书中，在近似词扩展模块602将扩展特征词添加到特征词集合后，训练样本构建模块603即可基于特征词集合中的特征词，构建若干训练样本；其中，由于接下来需要通过主动学习的方式进行模型训练，因此上述若干训练样本中，可以只有一部分被标记了样本标签；具体构建训练样本的方式，可以根据具体需求，由本领域技术人员自行确定，本说明书不作具体限定。

在此种情景下，训练样本构建模块603构建若干训练样本的方式，可以是对特征词集合中的特征词进行特征词重组，进而生成若干业务信息作为训练样本。

进一步地，该装置还可以包括企业业务分类模块，在上述整个迭代过程执行完毕后，即可将待识别业务类型的企业的业务信息作为预测样本，输入训练完成的上述分类模型进行分类计算，并根据上述分类模型的输出分类，确定上述企业的业务类型。

在本说明书中，分类模型训练模块604可以基于主动学习的方式，对上述构建出的若干训练样本进行迭代训练，从而得到用于对目标对象进行分类的分类模型。具体而言，主动学习的常规流程通常分为模型训练、样本选择、重新标记三大部分，迭代执行。主动学习的详细实现方式可以参见相关技术资料记载，本领域普通技术人员可以基于上述描述完成具体的实现方案设计，本说明书不作具体限定。

在示出的一种实施方式中，上述装置还可以包括特征词倾向确定模块，以及特征词添加模块，对得到补充后的特征词集进行进一步补充，以取得进一步扩大特征词的覆盖度的效果；具体而言，可以由特征词倾向确定模块首先确定从预设的样本库的样本中提取到的特征词对于待训练的分类模型对应的各个输出分类的倾向程度，然后再由特征词添加模块将其中对于各个输出分类的倾向程度不一致的特征词添加到上述特征词集合中。

在示出的一种实施方式中，为了确定提取到的特征词，对待训练的分类模型对应的各输出分类的倾向程度，可以通过训练中间分类模型以进行识别、标记的方式，首先将预设的样本库中的样本划分为对应于所述各输出分类的样本集合。

具体而言，上述装置还可以包括样本库分类模块，由该模块首先基于添加了扩展特征词后的特征词集合中的特征词，构建若干中间训练样本；并使上述若干中间训练样本中的部分训练样本被标记了样本标签；再基于主动学习的方式，对上述若干中间训练样本进行迭代训练，得到用于对目标对象进行分类的中间分类模型；

然后，样本库分类模块进一步基于上述中间分类模型对上述预设的样本库中样本进行分类计算，即可根据分类结果，将预设的样本库中的样本划分为上述中间分类模型的各输出分类对应的样本集合；

最后，特征词倾向确定模块可以统计上述提取到的特征词，分别在划分得到的各个样本集合中出现的次数，便可以根据出现次数，计算得到用于表征特征词对待训练的分类模型对应的各个输出分类的倾向程度的倾向性指标。

在示出的一种实施方式中，上例中作为特征词的倾向性指标的比值，可以体现在一维数轴上，该数轴可以从大到小分为三个区间：正样本区间、中性样本区间、负样本区间，其中，上述正样本区间中的数值大于1，且与1的差值大于阈值；上述中性样本区间中的数值大于或者小于1，且与1的差值小于阈值；上述负样本区间中的数值小于1，且与1的差值大于阈值；显然，上述用于划分上述三个区间的阈值，亦可以根据数据统计选取合适的值，也可以由开发人员根据经验指定，对此本说明书无需进行详细限定；在此种实现方式中，特征词添加模块只需将提取到的特征词中，倾向性指标未落入上述中性区间的特征词添加到上述特征词集合，即可完成对于特征词集合的进一步补充。

本说明书实施例还提供一种计算机设备，其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现前述的数据处理方法。

图7示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

本说明书实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述的数据处理方法。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本说明书实施例的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本说明书实施例原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本说明书实施例的保护范围。

Claims

1.一种数据处理方法，包括：

2.根据权利要求1所述的方法，所述目标对象包括企业；所述特征词包括，针对企业的业务信息进行切分得到的特征词；所述样本标签包括与企业对应的业务类型标签；

所述基于特征词集合中的特征词构建若干训练样本，包括：

对特征词集合中的特征词进行特征词重组，生成若干业务信息作为训练样本；

所述方法还包括：

将待识别业务类型的企业的业务信息作为预测样本，输入训练完成的所述分类模型进行分类计算，并根据所述分类模型的输出分类，确定所述企业的业务类型。

3.根据权利要求1所述的方法，所述将特征词集合中的特征词进行近似词扩展，包括：

计算所述特征词集合中的特征词，与预设的特征词库中的特征词之间的相似度；

当所述预设的特征词库中的任一目标特征词，与所述特征词集合中的特征词的相似度达到阈值，将该目标特征词确定为与所述特征词集合中的特征词对应的扩展特征词。

4.根据权利要求3所述的方法，所述计算特征词集合中的特征词，与预设的特征词库中的特征词之间的相似度之前，还包括：

对所述特征词集合和预设的特征词库中的特征词分别进行词向量处理，得到与所述特征词集合中的特征词对应的词向量；以及，与所述预设的特征词库中的特征词对应的词向量；

所述计算特征词集合中的特征词，与预设的特征词库中的特征词之间的相似度，包括：

计算所述特征词集合中的特征词对应的词向量，与预设的特征词库中的特征词对应的词向量之间的距离；

所述当所述预设的特征词库中的任一目标特征词，与所述特征词集合中的特征词的相似度达到阈值，包括：

当所述预设的特征词库中的任一目标特征词对应的词向量，与所述特征词集合中的特征词对应的词向量的向量距离小于阈值，确定目标特征词与所述特征词集合中的特征词的相似度达到阈值。

5.根据权利要求3所述的方法，

所述预设的特征词库中的特征词所属的业务场景，与所述特征词集合中的特征词所属的业务场景相同。

6.根据权利要求1所述的方法，所述迭代终止条件还包括：

特征词集合中特征词的数量，相对于上一轮迭代的增量小于预设阈值。

7.根据权利要求1所述的方法，在基于添加了扩展特征词后的所述特征词集合中的特征词构建若干训练样本之前，所述方法还包括：

确定从预设的样本库中的样本中提取到的特征词，对待训练的分类模型对应的各输出分类的倾向程度；

进一步将所述提取到的特征词中，对各输出分类的倾向程度不一致的特征词，添加到所述特征词集合中。

8.根据权利要求7所述的方法，所述确定从预设的样本库中提取到的特征词，对待训练的分类模型对应的各输出分类的倾向程度之前，还包括：

基于添加了扩展特征词后的所述特征词集合中的特征词构建若干中间训练样本；其中，所述若干中间训练样本中的部分训练样本被标记了样本标签；

基于主动学习的方式，对所述若干中间训练样本，进行迭代训练，得到用于对目标对象进行分类的中间分类模型，并进一步基于所述中间分类模型对所述预设的样本库中的样本进行分类计算，以将所述预设的样本库中的样本划分为与所述中间分类模型的各输出分类对应的样本集合；

所述确定从预设的样本库中提取到的特征词，对待训练的分类模型对应的各输出分类的倾向程度，包括：

统计所述提取到的特征词，分别在划分出的各样本集合中的出现次数，并基于所述出现次数，计算所述提取到的特征词的倾向性指标；所述倾向性指标表征所述提取到的特征词对待训练的分类模型对应的各输出分类的倾向程度。

9.根据权利要求8所述的方法，所述分类模型为二分类模型；与所述中间分类模型的各输出分类对应的样本集合包括正样本集合和负样本集合；

所述倾向性指标包括：

特征词在正样本集合中的出现次数，和在负样本集合中的出现次数的比值。

10.根据权利要求9所述的方法，所述比值按照从高到低的顺序被划分为正样本区间、中性样本区间和负样本区间；其中，所述正样本区间中的数值大于1，且与1的差值大于阈值；所述中性样本区间中的数值大于或者小于1，且与1的差值小于阈值；所述负样本区间中的数值小于1，且与1的差值大于阈值；

所述将所述提取到的特征词中，对各输出分类的倾向程度不相似的特征词，添加到所述特征词集合中，包括：

将所述提取到的特征词中，所述比值未落入中性样本区间的特征词，添加到所述特征词集合中。

11.一种数据处理装置，包括：

12.根据权利要求11所述的装置，所述目标对象包括企业；所述特征词包括，针对企业的业务信息进行切分得到的特征词；所述样本标签包括与企业对应的业务类型标签；

所述训练样本构建模块进一步：

所述装置还包括：

企业业务分类模块，将待识别业务类型的企业的业务信息作为预测样本，输入训练完成的所述分类模型进行分类计算，并根据所述分类模型的输出分类，确定所述企业的业务类型。

13.根据权利要求11所述的装置，所述近似词扩展模块进一步：

14.根据权利要求13所述的装置，还包括：

词向量处理模块，对所述特征词集合和预设的特征词库中的特征词分别进行词向量处理，得到与所述特征词集合中的特征词对应的词向量；以及，与所述预设的特征词库中的特征词对应的词向量；

所述近似词扩展模块进一步：

15.根据权利要求13所述的装置，

16.根据权利要求11所述的装置，所述迭代终止条件还包括：

17.根据权利要求11所述的装置，所述装置还包括：

特征词倾向确定模块，确定从预设的样本库中的样本中提取到的特征词，对待训练的分类模型对应的各输出分类的倾向程度；

特征词添加模块，进一步将所述提取到的特征词中，对各输出分类的倾向程度不一致的特征词，添加到所述特征词集合中。

18.根据权利要求17所述的装置，所述装置还包括样本库分类模块，

基于添加了扩展特征词后的所述特征词集合中的特征词构建若干中间训练样本；其中，所述若干中间训练样本中的部分训练样本被标记了样本标签；基于主动学习的方式，对所述若干中间训练样本，进行迭代训练，得到用于对目标对象进行分类的中间分类模型，并进一步基于所述中间分类模型对所述预设的样本库中的样本进行分类计算，以将所述预设的样本库中的样本划分为所述中间分类模型的各输出分类对应的样本集合；

所述特征词倾向确定模块进一步：

19.根据权利要求18所述的装置，所述分类模型为二分类模型；与所述中间分类模型的各输出分类对应的样本集合包括正样本集合和负样本集合；

所述倾向性指标包括：特征词在正样本集合中的出现次数，和在负样本集合中的出现次数的比值。

20.根据权利要求19所述的装置，所述比值按照从高到低的顺序被划分为正样本区间、中性样本区间和负样本区间；其中，所述正样本区间中的数值大于1，且与1的差值大于阈值；所述中性样本区间中的数值大于或者小于1，且与1的差值小于阈值；所述负样本区间中的数值小于1，且与1的差值大于阈值；所述特征词添加模块进一步：

21.一种计算机设备，其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现权利要求1～10任一所述的方法。