CN111461904A

CN111461904A - 对象类别的分析方法及装置

Info

Publication number: CN111461904A
Application number: CN202010304997.5A
Authority: CN
Inventors: 曹绍升; 陈超超; 吴郑伟
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-04-17
Filing date: 2020-04-17
Publication date: 2020-07-28
Anticipated expiration: 2040-04-17
Also published as: CN111461904B

Abstract

本说明书一个或多个实施例公开了对象类别的分析方法及装置，用于解决现有技术中对象类别的分析准确度较低的问题。所述方法包括：获取属于目标类别的第一对象对应的第一文本，及，获取第二对象对应的第二文本。利用预先训练的序列到序列模型及词向量集，确定所述第一文本对应的第一文本向量及所述第二文本对应的第二文本向量，所述序列到序列模型为根据具有相关性标签信息的多个样本文本训练得到，各所述样本文本包含多个有序的样本词语。基于所述第一文本向量及所述第二文本向量，确定所述第一文本及所述第二文本之间的相关性信息。根据所述第一文本及所述第二文本之间的相关性信息，确定所述第二对象是否属于所述目标类别。

Description

对象类别的分析方法及装置

技术领域

本说明书涉及文本处理及神经网络技术领域，尤其涉及一种对象类别的分析方法及装置。

背景技术

在一些场景中，需要检测出满足一定条件的目标类别的对象。通常，在检测一个对象是否为目标类别的对象时，可以将该对象与一个目标类别的对象进行比对，如果两者相似度较高，即可判定该对象属于目标类别，因此准确地计算对象相似度显得非常关键。但是，现有的确定对象相似度的方法准确性较低，导致对象类别的分析结果也相对不够准确。

以保险服务场景为例。针对保险服务，黑产经常采用一些不法手段进行骗险，一般的、常见的作案方式能够被我们所识别，例如，黑产通过建立即时通讯群组织大、中专生进行团伙骗险作案，通过常规的地理位置、账号注册设备等信息分析可识别出作案团伙。但是，这些常规的识别方法很容易被黑产反针对绕过，从而导致无法很好地抓取更多的黑产团伙成员。

发明内容

一方面，本说明书一个或多个实施例提供一种对象类别的分析方法，包括：获取属于目标类别的第一对象对应的第一文本，及，获取第二对象对应的第二文本。利用预先训练的序列到序列模型及词向量集，确定所述第一文本对应的第一文本向量及所述第二文本对应的第二文本向量，所述序列到序列模型为根据具有相关性标签信息的多个样本文本训练得到，各所述样本文本包含多个有序的样本词语。基于所述第一文本向量及所述第二文本向量，确定所述第一文本及所述第二文本之间的相关性信息。根据所述第一文本及所述第二文本之间的相关性信息，确定所述第二对象是否属于所述目标类别。

另一方面，本说明书一个或多个实施例提供一种理赔行为的分析方法，包括：获取非法理赔行为对应的第一保险理赔文本，及，获取待检测对象对应的第二保险理赔文本。利用预先训练的序列到序列模型及词向量集，确定所述第一保险理赔文本对应的第一文本向量及所述第二保险理赔文本对应的第二文本向量，所述序列到序列模型为根据具有相关性标签信息的多个样本保险理赔文本训练得到，各所述样本保险理赔文本包含多个有序的样本词语。基于所述第一文本向量及所述第二文本向量，确定所述第一保险理赔文本及所述第二保险理赔文本之间的相关性信息。根据所述第一保险理赔文本及所述第二保险理赔文本之间的相关性信息，确定所述待检测对象是否属于所述非法理赔行为。

再一方面，本说明书一个或多个实施例提供一种对象类别的分析装置，包括：第一获取模块，获取属于目标类别的第一对象对应的第一文本，及，获取第二对象对应的第二文本。第一确定模块，利用预先训练的序列到序列模型及词向量集，确定所述第一文本对应的第一文本向量及所述第二文本对应的第二文本向量，所述序列到序列模型为根据具有相关性标签信息的多个样本文本训练得到，各所述样本文本包含多个有序的样本词语。第二确定模块，基于所述第一文本向量及所述第二文本向量，确定所述第一文本及所述第二文本之间的相关性信息。第三确定模块，根据所述第一文本及所述第二文本之间的相关性信息，确定所述第二对象是否属于所述目标类别。

再一方面，本说明书一个或多个实施例提供一种理赔行为的分析装置，包括：第二获取模块，获取非法理赔行为对应的第一保险理赔文本，及，获取待检测对象对应的第二保险理赔文本。第四确定模块，利用预先训练的序列到序列模型及词向量集，确定所述第一保险理赔文本对应的第一文本向量及所述第二保险理赔文本对应的第二文本向量，所述序列到序列模型为根据具有相关性标签信息的多个样本保险理赔文本训练得到，各所述样本保险理赔文本包含多个有序的样本词语。第五确定模块，基于所述第一文本向量及所述第二文本向量，确定所述第一保险理赔文本及所述第二保险理赔文本之间的相关性信息。第六确定模块，根据所述第一保险理赔文本及所述第二保险理赔文本之间的相关性信息，确定所述待检测对象是否属于所述非法理赔行为。

再一方面，本说明书一个或多个实施例提供一种对象类别的分析设备，包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器：获取属于目标类别的第一对象对应的第一文本，及，获取第二对象对应的第二文本。利用预先训练的序列到序列模型及词向量集，确定所述第一文本对应的第一文本向量及所述第二文本对应的第二文本向量，所述序列到序列模型为根据具有相关性标签信息的多个样本文本训练得到，各所述样本文本包含多个有序的样本词语。基于所述第一文本向量及所述第二文本向量，确定所述第一文本及所述第二文本之间的相关性信息。根据所述第一文本及所述第二文本之间的相关性信息，确定所述第二对象是否属于所述目标类别。

再一方面，本说明书一个或多个实施例提供一种对象类别的分析设备，包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器：获取非法理赔行为对应的第一保险理赔文本，及，获取待检测对象对应的第二保险理赔文本。利用预先训练的序列到序列模型及词向量集，确定所述第一保险理赔文本对应的第一文本向量及所述第二保险理赔文本对应的第二文本向量，所述序列到序列模型为根据具有相关性标签信息的多个样本保险理赔文本训练得到，各所述样本保险理赔文本包含多个有序的样本词语。基于所述第一文本向量及所述第二文本向量，确定所述第一保险理赔文本及所述第二保险理赔文本之间的相关性信息。根据所述第一保险理赔文本及所述第二保险理赔文本之间的相关性信息，确定所述待检测对象是否属于所述非法理赔行为。

再一方面，本申请实施例提供一种存储介质，用于存储计算机可执行指令，所述可执行指令在被执行时实现以下流程：获取属于目标类别的第一对象对应的第一文本，及，获取第二对象对应的第二文本。利用预先训练的序列到序列模型及词向量集，确定所述第一文本对应的第一文本向量及所述第二文本对应的第二文本向量，所述序列到序列模型为根据具有相关性标签信息的多个样本文本训练得到，各所述样本文本包含多个有序的样本词语。基于所述第一文本向量及所述第二文本向量，确定所述第一文本及所述第二文本之间的相关性信息。根据所述第一文本及所述第二文本之间的相关性信息，确定所述第二对象是否属于所述目标类别。

再一方面，本申请实施例提供一种存储介质，用于存储计算机可执行指令，所述可执行指令在被执行时实现以下流程：获取非法理赔行为对应的第一保险理赔文本，及，获取待检测对象对应的第二保险理赔文本。利用预先训练的序列到序列模型及词向量集，确定所述第一保险理赔文本对应的第一文本向量及所述第二保险理赔文本对应的第二文本向量，所述序列到序列模型为根据具有相关性标签信息的多个样本保险理赔文本训练得到，各所述样本保险理赔文本包含多个有序的样本词语。基于所述第一文本向量及所述第二文本向量，确定所述第一保险理赔文本及所述第二保险理赔文本之间的相关性信息。根据所述第一保险理赔文本及所述第二保险理赔文本之间的相关性信息，确定所述待检测对象是否属于所述非法理赔行为。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书一个或多个实施例中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据本说明书一实施例的一种对象类别的分析方法的示意性流程图；

图2是根据本说明书一实施例的一种对象类别的分析方法中模型训练的示意性流程图；

图3是根据本说明书一实施例的一种对象类别的分析方法中模型训练的示意图；

图4是根据本说明书一实施例的一种对象类别的分析方法中预测文本相似度的示意性流程图；

图5是根据本说明书一实施例的一种理赔行为的分析方法的示意性流程图；

图6是根据本说明书一实施例的一种对象类别的分析装置的示意性框图；

图7是根据本说明书一实施例的一种理赔行为的分析装置的示意性框图；

图8是根据本说明书一实施例的一种对象类别的分析设备的示意性框图；

图9是根据本说明书一实施例的一种理赔行为的分析设备的示意性框图。

具体实施方式

本说明书一个或多个实施例提供一种对象类别的分析方法及装置，用于解决现有技术中对象类别的分析准确度较低的问题。

为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案，下面将结合本说明书一个或多个实施例中的附图，对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书一个或多个实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书一个或多个实施例保护的范围。

图1是根据本说明书一实施例的一种对象类别的分析方法的示意性流程图，如图1所示，该方法包括：

S102，获取属于目标类别的第一对象对应的第一文本，及，获取第二对象对应的第二文本。

其中，第一对象及第二对象可以是用户，也可以是用户所执行的行为。第一对象对应的第一文本可以是与第一对象有关或由第一对象提供的文章中的文本，第二对象对应的第二文本可以是与第二对象有关或由第二对象提供的文章中的文本。文本可以是词语、句子、符号等中的任一项，或由其中的至少两项组合而成。以保险领域为例，在保险理赔过程中，用户需填写保险理赔文本，那么第一对象对应的第一文本即为第一对象所填写的保险理赔文本。

目标类别为对象的属性，可根据具体场景中对象的行为确定。例如，在保险领域，目标类别为非法理赔行为类。若某一用户（即对象）执行的理赔行为是非法的，则该用户属于非法理赔行为类。

S104，利用预先训练的序列到序列模型及词向量集，确定第一文本对应的第一文本向量及第二文本对应的第二文本向量。

其中，序列到序列模型为根据具有相关性标签信息的多个样本文本训练得到。各样本文本包含多个有序的样本词语。词向量集中包括多个预先训练的词向量。

相关性标签信息用于标识各样本文本之间是否具有相关性，和/或，具有相关性的样本文本之间的相关性程度。例如，若相关性标签信息仅用于标识样本文本之间是否具有相关性，则可用0和1作为相关性标签信息，其中，0表示样本文本之间不具有相关性，1表示样本文本之间具有相关性。

S106，基于第一文本向量及第二文本向量，确定第一文本及第二文本之间的相关性信息。

其中，相关性信息包括相似度。基于多个文本向量确定文本之间的相似度时，可基于多个文本向量之间的向量距离来确定文本之间的相似度大小。例如，两个文本向量之间的向量距离越大，则对应的两个文本之间的相似度越小。

S108，根据第一文本及第二文本之间的相关性信息，确定第二对象是否属于目标类别。

采用本说明书一个或多个实施例提供的技术方案，通过获取属于目标类别的第一对象对应的第一文本及第二对象对应的第二文本，并利用预先训练的序列到序列模型及词向量集，确定第一文本对应的第一文本向量及第二文本对应的第二文本向量。进而基于第一文本向量及第二文本向量，确定第一文本及第二文本之间的相关性信息，根据第一文本及第二文本之间的相关性信息，确定第二对象是否属于目标类别。由于序列到序列模型的训练依据包括多个有序的样本词语，因此基于序列到序列模型及词向量集确定的文本相关性能够充分考虑到文本中各词语之间的序列关系，从而提升确定文本相关性的准确性，进一步使得第二对象是否属于目标类别的判定结果更加准确。

下面详细说明词向量集和序列到序列模型的训练方法。

图2示出了本说明书一实施例中词向量集和序列到序列模型的训练过程。如图2所示，词向量集和序列到序列模型的训练过程包括以下步骤：

S201，获取具有相关标签信息的多个样本文本。

S202，确定样本文本对应的相关标签信息。

其中，S201和S202的执行顺序不作限定。即，可同时执行这两个步骤，也可先后分别执行这两个步骤。

多个样本文本可包括一个或多个具有相关标签信息的样本文本对。例如，文本X和文本Y之间具有相关标签信息“1”，说明文本X和文本Y之间相关，则文本X和文本Y可作为一个样本文本对。优选的，样本文本中同时包括至少一个相关的样本文本对和至少一个不相关的样本文本对。

S203，将样本文本进行分词处理，得到样本文本对应的样本分词信息。

该步骤中，可采用现有的任一种分词算法对样本文本进行分词处理。样本分词信息包括样本词语、样本词语的笔画信息、拼音信息等一项或多项信息。

将样本文本进行分词处理后，可执行S204，即收集分词后的样本文本。同时可执行S205，即基于样本分词信息，利用预定的词向量训练算法训练样本词语对应的词向量。

其中，对预定的词向量训练算法不作限定。优选的，可使用级联式词向量训练算法对词向量进行训练。级联式词向量训练算法由于融合了词语的笔画、拼音等信息，因此训练出的词向量更加丰富、完整。

训练得到样本词语对应的词向量后，通过集合多个词向量即可得到词向量集。

S206，基于分词后的样本文本、样本文本对应的相关性标签信息及词向量集训练序列到序列模型。

其中，序列到序列模型包括编码器和解码器。编码器和解码器分别使用循环网络神经实现，其中，编码器的作用是将输入的文本编码成一个文本向量，而解码器的作用则是根据已经解码的词语来预测下一个词语。

序列到序列模型的训练过程中，输入数据包括分词后的样本文本、相关性标签信息及词向量集，输出数据为序列到序列模型的模型参数。基于此，假设样本文本包括具有相关性标签信息的第一样本文本及第二样本文本，第一样本文本及第二样本文本互为相关或不相关的文本对。则在训练序列到序列模型过程中，可将第一样本文本作为编码器的输入文本、第二样本文本作为解码器的输出文本；和/或，将第二样本文本作为编码器的输入文本、第一样本文本作为解码器的输出文本。

优选的，将第一样本文本作为编码器的输入文本、第二样本文本作为解码器的输出文本训练之后，再将第二样本文本作为编码器的输入文本、第一样本文本作为解码器的输出文本训练一次。例如，相关的样本文本对包括文本X和文本Y，则在训练序列到序列模型时，先从文本X编码到文本Y解码的过程训练一次，然后调换文本X和文本Y，将从文本Y编码到文本X解码的过程再训练一次。这样做的优点在于，由于文本X和文本Y本身属于互为相关的两个文本，因此通过这种调换训练的方式，实现了模型的正向和反向两次训练，可以让两个文本编码到相同的语义空间内，从而使训练出的序列到序列模型更准确。

为了更清晰的说明序列到序列模型的训练过程，下面将根据图3来进一步的进行分析。

如图3所示，样本文本包括以下相关的句子对：句子“朋友说是假的”和句子“同事讲是假的”。其中，“朋友说是假的”是第一个句子，即作为编码器的输入句子，<eos>是句子结尾符号。经过编码器之后，产出句子“朋友说是假的”对应的句子向量s，然后解码器开始解码。上述提及，解码器的作用是根据已经解码的词语来预测下一个词语，具体为：第一次是利用<eos>和向量s预测出第一个词语“同事”，然后再根据词语“同事”和上一个状态的隐藏层预测出下一个词语“讲”，依次类推，直到预测出来的是句子结尾符号<eos>。

由图3可看出，序列到序列模型的训练过程可分为4个层。第一层是输入词语（包括符号等）层（即input layer），比如“朋友”、“说”、“同事”等词语。第二层是嵌入层（即embedding layer），是词语对应的表示向量，即词向量。第三层是隐藏层（即hiddenlayer），是每个状态的句子向量。最上面的是输出层，例如，“同事”、“讲”、…、<eos>等，逐个输出第二个句子的词语。嵌入层和隐藏层使用的是循环神经网络，而输出层则是利用softmax函数进行预测。

图3所示的训练过程中，还可将两个句子调换。例如，上述的是从“朋友说是假的”编码到“同事讲是假的”解码的过程，还需要反过来，即从“同事讲是假的”编码到“朋友说是假的”解码的过程。从而使两个句子编码到相同的语义空间内。

在一个实施例中，利用预先训练的序列到序列模型及词向量集，确定第一文本对应的第一文本向量及第二文本对应的第二文本向量（即执行S104）时，可将第一文本及第二文本进行分词处理，得到第一文本及第二文本分别对应的目标分词信息。目标分词信息包括以下至少一项：第一文本及第二文本分别包含的多个目标词语、各目标词语之间的序列关系。进而根据编码器的模型参数、词向量集及目标分词信息，确定第一文本向量及第二文本向量。

在一个实施例中，根据编码器的模型参数、词向量集及目标分词信息确定第一文本向量及第二文本向量时，具体的可按照如下方法确定：首先，根据词向量集确定目标词语对应的目标词向量；其次，基于目标词向量及各目标词语之间的序列关系，利用编码器的模型参数生成第一文本向量及所述第二文本向量。其中，编码器的作用正是为了对文本进行编码，以生成文本对应的文本向量。

图4示出了本说明书一实施例中文本相似度的预测过程。如图4所示，假设已标注目标类别的句子A，以及未标注类别的句子B，则句子A和句子B之间的相似度的预测过程包括以下步骤：

S4011，获取已标注目标类别的句子A。

S4012，获取未标注类别的句子B。

上述S4011和S4012的执行顺序不作限定，即，可同时执行S4011和S4012，也可先后依次执行S4011和S4012。

S4021，对句子A进行句子分词，得到句子A对应的分词信息。

其中，句子A对应的分词信息包括句子A中包括的多个词语及各词语之间的序列关系。

S4022，对句子B进行句子分词，得到句子B对应的分词信息。

其中，句子B对应的分词信息包括句子B中包括的多个词语及各词语之间的序列关系。

S4031，利用句子A对应的分词信息、编码器的模型参数及词向量集，生成句子A对应的句子向量S1。

S4032，利用句子B对应的分词信息、编码器的模型参数及词向量集，生成句子B对应的句子向量S2。

其中，编码器的作用是为了对句子进行编码，以生成句子对应的句子向量。词向量集中包括多个词向量。

S404，计算句子向量S1和句子向量S2之间的向量距离。

其中，向量距离可通过向量夹角的余弦值来表征。

S405，基于句子向量S1和句子向量S2之间的向量距离，确定句子A和句子B之间的相似度。

本实施例中，通过基于序列到序列模型的编码器的模型参数、词向量集及分词信息确定各句子的句子向量，进而基于句子向量之间的向量距离确定各句子之间的相似度。由于序列到序列模型的训练依据包括多个有序的样本词语，因此基于序列到序列模型及词向量集确定的句子相似度能够充分考虑到句子中各词语之间的序列关系，从而提升确定句子相似度的准确性。

上述实施例中，考虑到序列到序列的方法计算量较大，可先用轻量级方法计算召回集，在少量召回集中，再使用上述实施例提供的方法。当然，本方案也可直接在全量数据上直接运行。

上述实施例提供的对象类别的分析方法可应用于多种场景中。下面以保险理赔场景为例说明如何分析非法理赔行为。

图5是根据本说明书一实施例的一种理赔行为的分析方法的示意性流程图，如图5所示，该方法包括：

S502，获取非法理赔行为对应的第一保险理赔文本，及，获取待检测对象对应的第二保险理赔文本。

S504，利用预先训练的序列到序列模型及词向量集，确定第一保险理赔文本对应的第一文本向量及第二保险理赔文本对应的第二文本向量。

其中，序列到序列模型为根据具有相关性标签信息的多个样本保险理赔文本训练得到；各样本保险理赔文本包含多个有序的样本词语。

相关性标签信息用于标识各样本保险理赔文本之间是否具有相关性，和/或，具有相关性的样本保险理赔文本之间的相关性程度。例如，若相关性标签信息仅用于标识样本保险理赔文本之间是否具有相关性，则可用0和1作为相关性标签信息，其中，0表示样本保险理赔文本之间不具有相关性，1表示样本保险理赔文本之间具有相关性。

S506，基于第一文本向量及第二文本向量，确定第一保险理赔文本及第二保险理赔文本之间的相关性信息。

其中，相关性信息包括相似度。基于多个保险理赔文本对应的文本向量确定保险理赔文本之间的相似度时，可基于多个文本向量之间的向量距离来确定保险理赔文本之间的相似度大小。例如，两个文本向量之间的向量距离越大，则对应的两个保险理赔文本之间的相似度越小。

S508，根据第一保险理赔文本及第二保险理赔文本之间的相关性信息，确定待检测对象是否属于非法理赔行为。

在一个实施例中，在获取非法理赔行为对应的第一保险理赔文本，及，获取待检测对象对应的第二保险理赔文本之前，可按照如下方法训练词向量集：

首先，将样本保险理赔文本进行分词处理，得到样本保险理赔文本对应的样本分词信息；样本分词信息包括样本词语。

该步骤中，可采用现有的任一种分词算法对样本保险理赔文本进行分词处理。样本分词信息包括样本词语、样本词语的笔画信息、拼音信息等一项或多项信息。

其次，基于样本分词信息，并利用预定的词向量训练算法训练样本词语对应的词向量。

再次，集合多个词向量，得到词向量集。

在一个实施例中，样本保险理赔文本包括具有相关性标签信息的第一样本保险理赔文本及第二样本保险理赔文本。序列到序列模型包括编码器和解码器。基于此，可基于分词后的样本文本、相关性标签信息及词向量集训练序列到序列模型。其中，第一样本保险理赔文本为编码器的输入文本，第二样本保险理赔文本为解码器的输出文本；和/或，第二样本保险理赔文本为编码器的输入文本，第一样本保险理赔文本为解码器的输出文本。

序列到序列模型的训练过程中，输入数据包括分词后的样本保险理赔文本、相关性标签信息及词向量集，输出数据为序列到序列模型的模型参数。基于此，假设样本保险理赔文本包括具有相关性标签信息的第一样本保险理赔文本及第二样本保险理赔文本，第一样本保险理赔文本及第二样本保险理赔文本互为相关或不相关的保险理赔文本对。则在训练序列到序列模型过程中，可将第一样本保险理赔文本作为编码器的输入文本、第二样本保险理赔文本作为解码器的输出文本；和/或，将第二样本保险理赔文本作为编码器的输入文本、第一样本保险理赔文本作为解码器的输出文本。

优选的，将第一样本保险理赔文本作为编码器的输入文本、第二样本保险理赔文本作为解码器的输出文本训练之后，再将第二样本保险理赔文本作为编码器的输入文本、第一样本保险理赔文本作为解码器的输出文本训练一次。例如，相关的样本保险理赔文本对包括保险理赔文本X和保险理赔文本Y，则在训练序列到序列模型时，先从保险理赔文本X编码到保险理赔文本Y解码的过程训练一次，然后调换保险理赔文本X和保险理赔文本Y，将从保险理赔文本Y编码到保险理赔文本X解码的过程再训练一次。这样做的优点在于，由于保险理赔文本X和保险理赔文本Y本身属于互为相关的两个保险理赔文本，因此通过这种调换训练的方式，实现了模型的正向和反向两次训练，可以让两个保险理赔文本编码到相同的语义空间内，从而使训练出的序列到序列模型更准确。

在一个实施例中，利用预先训练的序列到序列模型及词向量集，确定第一保险理赔文本对应的第一文本向量及第二保险理赔文本对应的第二文本向量时，可将第一保险理赔文本及第二保险理赔文本进行分词处理，得到第一保险理赔文本及第二保险理赔文本分别对应的目标分词信息；目标分词信息包括以下至少一项：第一保险理赔文本及第二保险理赔文本分别包含的多个目标词语、各目标词语之间的序列关系。进而根据编码器的模型参数、词向量集及目标分词信息，确定第一文本向量及第二文本向量。

在一个实施例中，根据编码器的模型参数、词向量集及目标分词信息，确定第一文本向量及第二文本向量时，具体的可按照如下方法确定：首先，根据词向量集确定目标词语对应的目标词向量；其次，基于目标词向量及各目标词语之间的序列关系，利用编码器的模型参数生成第一文本向量及所述第二文本向量。其中，编码器的作用正是为了对保险理赔文本进行编码，以生成保险理赔文本对应的文本向量。

采用本说明书一个或多个实施例提供的技术方案，通过获取非法理赔行为对应的第一保险理赔文本及待检测对象对应的第二保险理赔文本，并利用预先训练的序列到序列模型及词向量集，确定第一保险理赔文本对应的第一文本向量及第二保险理赔文本对应的第二文本向量。进而基于第一文本向量及第二文本向量，确定第一保险理赔文本及第二保险理赔文本之间的相关性信息，根据第一保险理赔文本及第二保险理赔文本之间的相关性信息，确定待检测对象是否属于非法理赔行为。由于序列到序列模型的训练依据包括多个有序的样本词语，因此基于序列到序列模型及词向量集确定的保险理赔文本相关性能够充分考虑到保险理赔文本中各词语之间的序列关系，从而提升确定保险理赔文本相关性的准确性，使得待检测对象是否属于非法理赔行为的判定结果更加准确。进一步地，这种对理赔行为进行分析的方法由于基于保险理赔文本本身，因此不容易被执行非法理赔行为的黑产反针对。

综上，已经对本主题的特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作可以按照不同的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序，以实现期望的结果。在某些实施方式中，多任务处理和并行处理可以是有利的。

以上为本说明书一个或多个实施例提供的对象类别的分析方法及理赔行为的分析方法，基于同样的思路，本说明书一个或多个实施例还提供一种对象类别的分析装置及一种理赔行为的分析装置。

图6是根据本说明书一实施例的一种对象类别的分析装置的示意性框图，如图6所示，对象类别的分析装置包括：

第一获取模块610，获取属于目标类别的第一对象对应的第一文本，及，获取第二对象对应的第二文本；

第一确定模块620，利用预先训练的序列到序列模型及词向量集，确定所述第一文本对应的第一文本向量及所述第二文本对应的第二文本向量；所述序列到序列模型为根据具有相关性标签信息的多个样本文本训练得到；各所述样本文本包含多个有序的样本词语；

第二确定模块630，基于所述第一文本向量及所述第二文本向量，确定所述第一文本及所述第二文本之间的相关性信息；

第三确定模块640，根据所述第一文本及所述第二文本之间的相关性信息，确定所述第二对象是否属于所述目标类别。

在一个实施例中，对象类别的分析装置还包括：

第一分词模块，在所述获取属于目标类别的第一对象对应的第一文本，及，获取第二对象对应的第二文本之前，将所述样本文本进行分词处理，得到所述样本文本对应的样本分词信息；所述样本分词信息包括所述样本词语；

第一训练模块，基于所述样本分词信息，并利用预定的词向量训练算法训练所述样本词语对应的词向量；

第一集合模块，集合多个所述词向量，得到所述词向量集。

在一个实施例中，所述样本分词信息包括所述样本词语的笔画信息和/或拼音信息。

在一个实施例中，所述样本文本包括具有所述相关性标签信息的第一样本文本及第二样本文本；所述序列到序列模型包括编码器和解码器；所述装置还包括：

第二训练模块，基于分词后的所述样本文本、所述相关性标签信息及所述词向量集，训练所述序列到序列模型；

其中，所述第一样本文本为所述编码器的输入文本，所述第二样本文本为所述解码器的输出文本；和/或，所述第二样本文本为所述编码器的输入文本，所述第一样本文本为所述解码器的输出文本。

在一个实施例中，第一确定模块620还用于：

将所述第一文本及所述第二文本进行分词处理，得到所述第一文本及所述第二文本分别对应的目标分词信息；所述目标分词信息包括以下至少一项：所述第一文本及所述第二文本分别包含的多个目标词语、各所述目标词语之间的序列关系；

根据所述编码器的模型参数、所述词向量集及所述目标分词信息，确定所述第一文本向量及所述第二文本向量。

在一个实施例中，第一确定模块620还用于：

根据所述词向量集，确定所述目标词语对应的目标词向量；

基于所述目标词向量及各所述目标词语之间的序列关系，利用所述编码器的模型参数生成所述第一文本向量及所述第二文本向量。

采用本说明书一个或多个实施例提供的装置，通过获取属于目标类别的第一对象对应的第一文本及第二对象对应的第二文本，并利用预先训练的序列到序列模型及词向量集，确定第一文本对应的第一文本向量及第二文本对应的第二文本向量。进而基于第一文本向量及第二文本向量，确定第一文本及第二文本之间的相关性信息，根据第一文本及第二文本之间的相关性信息，确定第二对象是否属于目标类别。由于序列到序列模型的训练依据包括多个有序的样本词语，因此基于序列到序列模型及词向量集确定的文本相关性能够充分考虑到文本中各词语之间的序列关系，从而提升确定文本相关性的准确性，进一步使得第二对象是否属于目标类别的判定结果更加准确。

本领域的技术人员应可理解，上述对象类别的分析装置能够用来实现前文所述的对象类别的分析方法，其中的细节描述应与前文方法部分描述类似，为避免繁琐，此处不另赘述。

图7是根据本说明书一实施例的一种理赔行为的分析装置的示意性框图，如图7所示，理赔行为的分析装置包括：

第二获取模块710，获取非法理赔行为对应的第一保险理赔文本，及，获取待检测对象对应的第二保险理赔文本；

第四确定模块720，利用预先训练的序列到序列模型及词向量集，确定所述第一保险理赔文本对应的第一文本向量及所述第二保险理赔文本对应的第二文本向量；所述序列到序列模型为根据具有相关性标签信息的多个样本保险理赔文本训练得到；各所述样本保险理赔文本包含多个有序的样本词语；

第五确定模块730，基于所述第一文本向量及所述第二文本向量，确定所述第一保险理赔文本及所述第二保险理赔文本之间的相关性信息；

第六确定模块740，根据所述第一保险理赔文本及所述第二保险理赔文本之间的相关性信息，确定所述待检测对象是否属于所述非法理赔行为。

在一个实施例中，所述装置还包括：

第二分词模块，在所述获取非法理赔行为对应的第一保险理赔文本，及，获取待检测对象对应的第二保险理赔文本之前，将所述样本保险理赔文本进行分词处理，得到所述样本保险理赔文本对应的样本分词信息；所述样本分词信息包括所述样本词语；

第三训练模块，基于所述样本分词信息，并利用预定的词向量训练算法训练所述样本词语对应的词向量；

第二集合模块，集合多个所述词向量，得到所述词向量集。

在一个实施例中，所述样本保险理赔文本包括具有所述相关性标签信息的第一样本保险理赔文本及第二样本保险理赔文本；所述序列到序列模型包括编码器和解码器；所述装置还包括：

第四训练模块，基于分词后的所述样本保险理赔文本、所述相关性标签信息及所述词向量集，训练所述序列到序列模型；

其中，所述第一样本保险理赔文本为所述编码器的输入文本，所述第二样本保险理赔文本为所述解码器的输出文本；和/或，所述第二样本保险理赔文本为所述编码器的输入文本，所述第一样本保险理赔文本为所述解码器的输出文本。

在一个实施例中，第四确定模块720还用于：

根据所述词向量集，确定所述目标词语对应的目标词向量；

采用本说明书一个或多个实施例提供的装置，通过获取非法理赔行为对应的第一保险理赔文本及待检测对象对应的第二保险理赔文本，并利用预先训练的序列到序列模型及词向量集，确定第一保险理赔文本对应的第一文本向量及第二保险理赔文本对应的第二文本向量。进而基于第一文本向量及第二文本向量，确定第一保险理赔文本及第二保险理赔文本之间的相关性信息，根据第一保险理赔文本及第二保险理赔文本之间的相关性信息，确定待检测对象是否属于非法理赔行为。由于序列到序列模型的训练依据包括多个有序的样本词语，因此基于序列到序列模型及词向量集确定的保险理赔文本相关性能够充分考虑到保险理赔文本中各词语之间的序列关系，从而提升确定保险理赔文本相关性的准确性，使得待检测对象是否属于非法理赔行为的判定结果更加准确。进一步地，这种对理赔行为进行分析的方法由于基于保险理赔文本本身，因此不容易被执行非法理赔行为的黑产反针对。

本领域的技术人员应可理解，上述理赔行为的分析装置能够用来实现前文所述的理赔行为的分析方法，其中的细节描述应与前文方法部分描述类似，为避免繁琐，此处不另赘述。

基于同样的思路，本说明书一个或多个实施例还提供一种对象类别的分析设备，如图8所示。对象类别的分析设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上的处理器801和存储器802，存储器802中可以存储有一个或一个以上存储应用程序或数据。其中，存储器802可以是短暂存储或持久存储。存储在存储器802的应用程序可以包括一个或一个以上模块（图示未示出），每个模块可以包括对对象类别的分析设备中的一系列计算机可执行指令。更进一步地，处理器801可以设置为与存储器802通信，在对象类别的分析设备上执行存储器802中的一系列计算机可执行指令。对象类别的分析设备还可以包括一个或一个以上电源803，一个或一个以上有线或无线网络接口804，一个或一个以上输入输出接口805，一个或一个以上键盘806。

具体在本实施例中，对象类别的分析设备包括有存储器，以及一个或一个以上的程序，其中一个或者一个以上程序存储于存储器中，且一个或者一个以上程序可以包括一个或一个以上模块，且每个模块可以包括对对象类别的分析设备中的一系列计算机可执行指令，且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令：

获取属于目标类别的第一对象对应的第一文本，及，获取第二对象对应的第二文本；

利用预先训练的序列到序列模型及词向量集，确定所述第一文本对应的第一文本向量及所述第二文本对应的第二文本向量；所述序列到序列模型为根据具有相关性标签信息的多个样本文本训练得到；各所述样本文本包含多个有序的样本词语；

基于所述第一文本向量及所述第二文本向量，确定所述第一文本及所述第二文本之间的相关性信息；

根据所述第一文本及所述第二文本之间的相关性信息，确定所述第二对象是否属于所述目标类别。

可选地，计算机可执行指令在被执行时，还可以使所述处理器：

所述获取属于目标类别的第一对象对应的第一文本，及，获取第二对象对应的第二文本之前，将所述样本文本进行分词处理，得到所述样本文本对应的样本分词信息；所述样本分词信息包括所述样本词语；

基于所述样本分词信息，并利用预定的词向量训练算法训练所述样本词语对应的词向量；

集合多个所述词向量，得到所述词向量集。

可选地，所述样本分词信息包括所述样本词语的笔画信息和/或拼音信息。

可选地，所述样本文本包括具有所述相关性标签信息的第一样本文本及第二样本文本；所述序列到序列模型包括编码器和解码器；

计算机可执行指令在被执行时，还可以使所述处理器：

基于分词后的所述样本文本、所述相关性标签信息及所述词向量集，训练所述序列到序列模型；

根据所述词向量集，确定所述目标词语对应的目标词向量；

基于同样的思路，本说明书一个或多个实施例还提供一种理赔行为的分析设备，如图9所示。理赔行为的分析设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上的处理器901和存储器902，存储器902中可以存储有一个或一个以上存储应用程序或数据。其中，存储器902可以是短暂存储或持久存储。存储在存储器902的应用程序可以包括一个或一个以上模块（图示未示出），每个模块可以包括对理赔行为的分析设备中的一系列计算机可执行指令。更进一步地，处理器901可以设置为与存储器902通信，在理赔行为的分析设备上执行存储器902中的一系列计算机可执行指令。理赔行为的分析设备还可以包括一个或一个以上电源903，一个或一个以上有线或无线网络接口904，一个或一个以上输入输出接口905，一个或一个以上键盘906。

具体在本实施例中，理赔行为的分析设备包括有存储器，以及一个或一个以上的程序，其中一个或者一个以上程序存储于存储器中，且一个或者一个以上程序可以包括一个或一个以上模块，且每个模块可以包括对理赔行为的分析设备中的一系列计算机可执行指令，且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令：

获取非法理赔行为对应的第一保险理赔文本，及，获取待检测对象对应的第二保险理赔文本；

利用预先训练的序列到序列模型及词向量集，确定所述第一保险理赔文本对应的第一文本向量及所述第二保险理赔文本对应的第二文本向量；所述序列到序列模型为根据具有相关性标签信息的多个样本保险理赔文本训练得到；各所述样本保险理赔文本包含多个有序的样本词语；

基于所述第一文本向量及所述第二文本向量，确定所述第一保险理赔文本及所述第二保险理赔文本之间的相关性信息；

根据所述第一保险理赔文本及所述第二保险理赔文本之间的相关性信息，确定所述待检测对象是否属于所述非法理赔行为。

本说明书一个或多个实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的电子设备执行时，能够使该电子设备执行上述对象类别的分析方法，并具体用于执行：

本说明书一个或多个实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的电子设备执行时，能够使该电子设备执行上述理赔行为的分析方法，并具体用于执行：

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书一个或多个实施例可提供为方法、系统、或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本说明书一个或多个实施例是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器（CPU）、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器（RAM）和/或非易失性内存等形式，如只读存储器（ROM）或闪存（flash RAM）。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存（PRAM）、静态随机存取存储器（SRAM）、动态随机存取存储器（DRAM）、其他类型的随机存取存储器（RAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、快闪记忆体或其他内存技术、只读光盘只读存储器（CD-ROM）、数字多功能光盘（DVD）或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体（transitory media），如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书一个或多个实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书一个或多个实施例可以有各种更改和变化。凡在本说明书一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例的权利要求范围之内。

Claims

1.一种对象类别的分析方法，包括：

2.根据权利要求1所述的方法，所述获取属于目标类别的第一对象对应的第一文本，及，获取第二对象对应的第二文本之前，所述方法还包括：

将所述样本文本进行分词处理，得到所述样本文本对应的样本分词信息；所述样本分词信息包括所述样本词语；

集合多个所述词向量，得到所述词向量集。

3.根据权利要求2所述的方法，所述样本分词信息包括所述样本词语的笔画信息和/或拼音信息。

4.根据权利要求2或3所述的方法，所述样本文本包括具有所述相关性标签信息的第一样本文本及第二样本文本；所述序列到序列模型包括编码器和解码器；所述方法还包括：

5.根据权利要求4所述的方法，所述利用预先训练的序列到序列模型及词向量集，确定所述第一文本对应的第一文本向量及所述第二文本对应的第二文本向量，包括：

6.根据权利要求5所述的方法，所述根据所述编码器的模型参数、所述词向量集及所述目标分词信息，确定所述第一文本向量及所述第二文本向量，包括：

根据所述词向量集，确定所述目标词语对应的目标词向量；

7.一种理赔行为的分析方法，包括：

8.一种对象类别的分析装置，包括：

第一获取模块，获取属于目标类别的第一对象对应的第一文本，及，获取第二对象对应的第二文本；

第一确定模块，利用预先训练的序列到序列模型及词向量集，确定所述第一文本对应的第一文本向量及所述第二文本对应的第二文本向量；所述序列到序列模型为根据具有相关性标签信息的多个样本文本训练得到；各所述样本文本包含多个有序的样本词语；

第二确定模块，基于所述第一文本向量及所述第二文本向量，确定所述第一文本及所述第二文本之间的相关性信息；

第三确定模块，根据所述第一文本及所述第二文本之间的相关性信息，确定所述第二对象是否属于所述目标类别。

9.根据权利要求8所述的装置，还包括：

第一集合模块，集合多个所述词向量，得到所述词向量集。

10.根据权利要求9所述的装置，所述样本文本包括具有所述相关性标签信息的第一样本文本及第二样本文本；所述序列到序列模型包括编码器和解码器；所述装置还包括：

11.一种理赔行为的分析装置，包括：

第二获取模块，获取非法理赔行为对应的第一保险理赔文本，及，获取待检测对象对应的第二保险理赔文本；

第四确定模块，利用预先训练的序列到序列模型及词向量集，确定所述第一保险理赔文本对应的第一文本向量及所述第二保险理赔文本对应的第二文本向量；所述序列到序列模型为根据具有相关性标签信息的多个样本保险理赔文本训练得到；各所述样本保险理赔文本包含多个有序的样本词语；

第五确定模块，基于所述第一文本向量及所述第二文本向量，确定所述第一保险理赔文本及所述第二保险理赔文本之间的相关性信息；

第六确定模块，根据所述第一保险理赔文本及所述第二保险理赔文本之间的相关性信息，确定所述待检测对象是否属于所述非法理赔行为。

12.一种对象类别的分析设备，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器：

13.一种理赔行为的分析设备，包括：

处理器；以及

14.一种存储介质，用于存储计算机可执行指令，所述可执行指令在被执行时实现以下流程：

15.一种存储介质，用于存储计算机可执行指令，所述可执行指令在被执行时实现以下流程：