CN116720123A

CN116720123A - 一种账户识别方法、装置、终端设备及介质

Info

Publication number: CN116720123A
Application number: CN202311005397.9A
Authority: CN
Inventors: 廖志芳; 黄雪纯; 张博霖; 刘文龙
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2023-08-10
Filing date: 2023-08-10
Publication date: 2023-09-08
Anticipated expiration: 2043-08-10
Also published as: CN116720123B

Abstract

本申请适用于序列挖掘技术领域，提供了一种账户识别方法、装置、终端设备及介质，利用行为分类表，对已识别账户的行为记录进行分类，得到行为事件序列；根据时间信息和时间间隔阈值，对行为事件序列进行切分，得到多个行为序列片段；针对每个行为序列片段，提取每个行为事件的多元特征；构建行为序列编码器，并利用行为事件序列和多元特征对行为序列编码器进行训练，得到训练后的行为序列编码器；根据训练后的行为序列编码器，构建账户识别模型，并利用预先构建的识别损失函数对账户识别模型进行反向传播，得到最终的账户识别模型；利用最终的账户识别模型对待识别账户进行识别。本申请能够提高账户识别能力。

Description

一种账户识别方法、装置、终端设备及介质

技术领域

本申请属于序列挖掘技术领域，尤其涉及一种账户识别方法、装置、终端设备及介质。

背景技术

近年来，不少研究者致力于账户的识别工作。他们大多使用基于监督学习的方法，在标注数据集上取得了很高的识别准确率，达到了一定的自动化水平。这类方法需要从账户资料、账户活动记录、文本信息等方面提取并手工设计大量特征，大多局限于识别特定活动类型的软件机器人，通常需要组合使用。同时，这些手工构建的标注数据集规模有限，模型对于未在数据集中出现过的机器人，或者是新类型机器人识别能力较差。

发明内容

本申请实施例提供了一种账户识别方法、装置、终端设备及介质，可以解决现有账户识别方法识别能力较差的问题。

第一方面，本申请实施例提供了一种账户识别方法，包括：

利用预先配置的行为分类表，对采集的已识别账户的行为记录进行分类，得到行为事件序列；行为事件序列包括多个行为事件和多个行为事件中每个行为事件对应的时间信息；

根据时间信息和预先设置的时间间隔阈值，对行为事件序列进行切分，得到多个行为序列片段；

分别针对多个行为序列片段中的每个行为序列片段，提取行为序列片段中每个行为事件的多元特征；多元特征包括类型特征、文本特征以及嵌入特征；

构建用于区分不同账户行为序列表示的行为序列编码器，并利用行为事件序列和多元特征对行为序列编码器进行训练，得到训练后的行为序列编码器；行为序列编码器包括用于生成行为事件子序列的序列构建模块、用于在行为事件子序列中生成正负样本的样本构建模块以及用于对行为事件子序列进行编码的编码模块，序列构建模块的输出端连接样本构建模块的输入端，样本构建模块的输出端连接编码模块的输入端，序列编码器输入端接收行为事件序列和多元特征，序列编码器输出端输出行为事件序列的序列表示；

根据训练后的行为序列编码器，构建账户识别模型，并利用预先构建的识别损失函数对账户识别模型进行反向传播，得到最终的账户识别模型；

利用最终的账户识别模型对待识别账户进行识别。

可选的，行为分类表包括一级分类、二级分类以及三级分类，一级分类表示行为的发生位置，二级分类表示在发生位置下的行为类型，三级分类表示行为类型的结果。

可选的，根据时间信息和预先设置的时间间隔阈值，对行为事件序列进行切分，得到多个行为序列片段，包括：

根据时间信息，计算行为事件序列中所有相邻的两个行为事件之间的时间间隔；

对时间间隔大于时间间隔阈值的两个行为事件进行切分，得到多个行为序列片段。

可选的，分别针对多个行为序列片段中的每个行为序列片段，提取行为序列片段中每个行为事件的多元特征，包括：

分别针对行为序列片段中的每个行为事件，执行步骤i至步骤ii：

步骤i，通过计算公式

得到行为事件的类型特征；其中，/>表示行为事件片段中第/>个行为事件的类型特征，/>表示独热编码，/>表示第/>个行为事件的行为类型；

步骤ii，获取行为事件对应的文本信息，并通过计算公式

得到行为事件的文本特征；其中，文本信息包括行为事件的行为类型、发生位置以及效果，/>表示行为事件片段中第/>个行为事件的文本特征，/>表示第/>个行为事件的文本信息包含的不重复单词数，/>表示文本信息中的第/>个单词，/>表示第/>个单词对应的词向量；

步骤iii，将行为事件输入Event2vec模型，得到行为事件的嵌入特征；

步骤iv，通过计算公式，得到多元特征/>；其中，/>表示行为事件片段中第/>个行为事件的多元特征。

可选的，在序列构建模块，根据行为事件序列的长度，确定行为事件子序列的长度，并根据子序列的长度进行采样，得到多个行为事件子序列；

在样本构建模块，通过计算公式

；

得到正样本和负样本 />；正样本表示同一行为事件序列的子序列对，负样本表示不同的行为事件序列的子序列对，/>表示两个不同的行为事件序列，/>，表示对行为事件序列/>进行采样得到行为事件序列子序列的过程，/>表示对行为事件序列/>进行采样得到行为事件序列子序列的过程；

在编码模块，执行以下步骤：

针对多个行为事件子序列中的每个行为事件子序列，通过计算公式

得到行为事件子序列的时序编码；/>表示第/>个行为事件的时序编码，/>表示预先设置的时间戳，/>表示特征维度；

通过计算公式，得到行为事件序列的序列特征表示/>；/>表示行为事件序列中所有行为事件的多元特征集合，/>表示独热编码，/>，/>表示时序特征集合，/>；

利用自注意力机制，对序列特征表示进行处理，得到初始序列表示；

通过计算公式

得到行为事件序列的序列表示；/>表示激活函数，/>和/>表示线性层1的权重参数，/>和/>表示线性层2的权重参数。

可选的，利用行为事件序列和多元特征对行为序列编码器进行训练，得到训练后的行为序列编码器，包括：

利用行为序列编码器，对行为事件序列和多元特征进行处理，得到行为事件序列的序列表示；

通过计算公式

得到序列表示的损失值；其中，/>是序列对的标签，/>代表序列对属于正例，/>代表序列对属于负例，/>表示经编码器输出的两个序列表示之间的欧式距离，/>；

基于损失值，对行为序列编码器进行反向传播，得到训练后的行为序列编码器。

可选的，账户识别模型包括输入层、嵌入层、编码层以及输出层；输入层接收待识别账户的行为事件序列，输入层的输出端连接嵌入层的输入端，嵌入层的输出端连接编码层的输入端，编码层的输出端连接输出层的输入端，输出层输出账户识别结果。

可选的，识别损失函数的表达式如下：

其中，表示识别损失值，/>表示第/>个已识别账户的真实标签，/>，，/>表示行为序列识别模型输出的标签是/>的概率，/>表示已识别账户的行为事件序列的总数量，/>表示控制对比学习损失影响的超参数。

第二方面，本申请实施例提供了一种账户识别装置，包括：

行为分类模块，用于利用预先配置的行为分类表，对采集的已识别账户的行为记录进行分类，得到行为事件序列；行为事件序列包括多个行为事件和多个行为事件中每个行为事件对应的时间信息；

序列划分模块，用于根据时间信息和预先设置的时间间隔阈值，对行为事件序列进行切分，得到多个行为序列片段；

特征提取模块，用于分别针对多个行为序列片段中的每个行为序列片段，提取行为序列片段中每个行为事件的多元特征；多元特征包括类型特征、文本特征以及嵌入特征；

序列编码模块，用于构建用于区分不同账户行为序列表示的行为序列编码器，并利用行为事件序列和多元特征对行为序列编码器进行训练，得到训练后的行为序列编码器；行为序列编码器包括用于生成行为事件子序列的序列构建模块、用于在行为事件子序列中生成正负样本的样本构建模块以及用于对行为事件子序列进行编码的编码模块，序列构建模块的输出端连接样本构建模块的输入端，样本构建模块的输出端连接编码模块的输入端，序列编码器输入端接收行为事件序列和多元特征，序列编码器输出端输出行为事件序列的序列表示；

识别模型模块，用于根据训练后的行为序列编码器，构建账户识别模型，并利用预先构建的识别损失函数对账户识别模型进行反向传播，得到最终的账户识别模型；

账户识别模块，用于利用最终的账户识别模型对待识别账户进行识别。

第三方面，本申请提供了一种终端设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述的账户识别方法。

第四方面，本申请提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述的账户识别方法。

本申请的上述方案有如下的有益效果：

本申请提供的账户识别方法通过提取行为事件的多元特征，能够准确的区分不同的行为事件，然后根据多元特征和行为序列编码器区分不同账户行为序列表示，可以准确的获取不同账户对应的行为序列表示，基于准确的行为序列表示，对账户进行识别，能够提高账户识别能力。此外，根据行为分类表能够对账户行为记录进行准确的分类，有助于提高账户识别能力。

本申请的其它有益效果将在随后的具体实施方式部分予以详细说明。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的账户识别方法的流程图；

图2为本申请一实施例提供的行为序列编码器的结构示意图；

图3为本申请一实施例提供的账户识别模型的结构示意图；

图4为本申请一实施例提供的账户识别装置的结构示意图；

图5为本申请一实施例提供的终端设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

针对传统账户识别方法识别能力较差的问题，本申请提供了一种账户识别方法、装置、终端设备及介质，该账户识别方法通过提取行为事件的多元特征，能够准确的区分不同的行为事件，然后根据多元特征和行为序列编码器区分不同账户行为序列表示，可以准确的获取不同账户对应的行为序列表示，基于准确的行为序列表示，对账户进行识别，能够提高账户识别能力。此外，根据行为分类表能够对账户行为记录进行准确的分类，有助于提高账户识别能力。

如图1所示，本申请提供的账户识别方法包括以下步骤：

步骤11，利用预先配置的行为分类表，对采集的已识别账户的行为记录进行分类，得到行为事件序列。

行为事件序列包括多个行为事件和多个行为事件中每个行为事件对应的时间信息。

上述行为分类表包括一级分类（如下表中的维度）、二级分类以及三级分类，一级分类表示行为的发生位置，二级分类表示在发生位置下的行为类型，三级分类表示行为类型的结果。在本申请的一实施例中，上述行为分类表具体如下表所示：

需要说明的是，上述已识别账户表示已经确定账户类别的账户，在本申请的一实施例中，可借助网站提供的相应接口查询各账户的行为记录，并基于先验知识判断账户类别，上述账户类别包括人类账户和机器人账户。

为确保账户的有效性，还需对已识别账户进行修正，具体的，删除采集的已识别账户中缺少账户资料的账户，并对已更换账户信息的账户进行同步。

步骤12，根据时间信息和预先设置的时间间隔阈值，对行为事件序列进行切分，得到多个行为序列片段。

步骤13，分别针对多个行为序列片段中的每个行为序列片段，提取行为序列片段中每个行为事件的多元特征。

多元特征包括类型特征、文本特征以及嵌入特征。

上述类型特征与行为事件在行为分类表中对应的类型有关，在本申请的一实施例中，行为分类表的一级分类包括用户（User）、仓库（Repo）、问题（Issue）、合并（Pull ）和提交（Commit），对应17个二级分类和38个三级分类，通过对行为事件的二级分类进行独热编码，得到该行为事件的类型特征。

每个行为事件有其对应的唯一标识符，以便区分不同的行为事件，唯一标识符包含细粒度的行为事件信息，特别是行为事件相关的文本信息。例如，创建（Create）事件的有效载荷（payload）对象包含描述（description）属性，是字符串类型的仓库描述信息；Issue事件的payload对象包含具体的Issue对象信息，以及被添加或删除的Issue标签。这些类型事件所包含的文本信息能够很好地反映行为事件的目的、内容与影响。通过解析所有已识别账户的唯一标识符，能够得到行为事件相关的文本信息，并将其整理成一个文本语料库。采用word2vec模型（一种产生词向量的相关模型）对语料库中的文本信息进行预训练，编码词向量，再对每一个行为事件的文本信息所涉及的所有词向量求平均，便能得到行为事件对应的文本特征。

本申请提取行为事件的嵌入特征，利用了行为事件之间的关联关系（共同出现的频率以及出现的顺序），参考了自然语言处理领域的单词向量化方法，同时考虑到行为事件序列和文本序列之间的差异作出了改进。

步骤14，构建用于区分不同账户行为序列表示的行为序列编码器，并利用行为事件序列和多元特征对行为序列编码器进行训练，得到训练后的行为序列编码器。

如图2所示，上述行为序列编码器包括用于生成行为事件子序列的序列构建模块（如图2中21所示）、用于在行为事件子序列中生成正负样本的样本构建模块（如图2中22所示）以及用于对行为事件子序列进行编码的编码模块（如图2中23所示）。其中，序列构建模块的输出端连接样本构建模块的输入端，样本构建模块的输出端连接编码模块的输入端。

序列编码器输入端接收行为事件序列和多元特征，序列编码器输出端输出行为事件序列的序列表示。

步骤15，根据训练后的行为序列编码器，构建账户识别模型，并利用预先构建的识别损失函数对账户识别模型进行反向传播，得到最终的账户识别模型。

如图3所示，上述账户识别模型包括输入层（如图3中31所示）、嵌入层（如图3中32所示）、编码层（如图3中33所示）以及输出层（如图3中34所示）。输入层接收待识别账户的行为事件序列，输入层的输出端连接嵌入层的输入端，嵌入层的输出端连接编码层的输入端，编码层的输出端连接输出层的输入端，输出层输出账户识别结果。

上述识别损失函数的表达式如下：

步骤16，利用最终的账户识别模型对待识别账户进行识别。

具体的，根据行为分类表对待识别账户的行为记录进行分类，得到待识别账户的行为事件序列，再对行为事件序列进行划分，得到多个行为序列片段，并将多个行为序列片段逐个输入多个行为序列片段，得到每个行为序列片段对应的识别结果，最后，统计所有行为序列片段的识别结果，将占比最大的识别结果作为待识别账户的账户类型。

示例性的，在本申请的一实施例中，某个账户所有行为序列片段的识别结果为{机器人，人类，机器人，机器人}，由于识别结果中机器人标签的占比最大，因此将该账户识别为机器人账户。在本申请的另一实施例中，当某个账户所有行为序列片段的识别结果出现不同的类型标签的占比相同的情况时，说明此时的账户识别模型识别效果不理想，需重新训练该账户识别模型。

下面对步骤12（根据时间信息和预先设置的时间间隔阈值，对行为事件序列进行切分，得到多个行为序列片段）的过程进行示例性说明。

步骤12.1，根据时间信息，计算行为事件序列中所有相邻的两个行为事件之间的时间间隔。

步骤12.2，对时间间隔大于时间间隔阈值的两个行为事件进行切分，得到多个行为序列片段。

需要说明的是，为了方便后续的模型训练，在本申请的实施例中，还会对步骤12.2得到的多个行为序列片段进行筛选。具体的，分别删除序列长度大于预先设置的最大序列长度的行为序列片段和的序列长度小于预先设置的最小序列长度的行为序列片段。

下面对步骤13（分别针对多个行为序列片段中的每个行为序列片段，提取行为序列片段中每个行为事件的多元特征）的过程进行示例性说明。

步骤i，通过计算公式

得到行为事件的类型特征。

其中，表示行为事件片段中第/>个行为事件的类型特征，/>表示独热编码，/>表示第/>个行为事件的行为类型。

步骤ii，获取行为事件对应的文本信息，并通过计算公式

得到行为事件的文本特征。

其中，文本信息包括行为事件的行为类型、发生位置以及效果，表示行为事件片段中第/>个行为事件的文本特征，/>表示第/>个行为事件的文本信息包含的不重复单词数，/>表示文本信息中的第/>个单词，/>表示第/>个单词对应的词向量。

步骤iii，将行为事件输入Event2vec模型，得到行为事件的嵌入特征。

需要说明的是，Event2vec模型是由CBOW词向量化模型改进而来，能够考虑两事件之间的时间间隔，并认为和目标事件具有较短时间间隔在预测目标事件时的贡献更大，进而引入时间权重对事件进行向量化。在本申请的实施例中，将Event2vec模型应用于行为事件向量化工作中，通过训练得到各类型行为事件对应的事件嵌入特征，某一账户的行为事件序列包括多个行为事件，其中，第个行为事件的嵌入特征就表示为/>。Event2vec模型对于本领域的技术人员而言属于公知常识，在此不再赘述其具体处理过程。

步骤iv，通过计算公式，得到多元特征/>。

其中，表示行为事件片段中第/>个行为事件的多元特征。

下面对步骤14中行为序列编码器各模块的处理过程进行示例性说明。

在序列构建模块：

根据行为事件序列的长度，确定行为事件子序列的长度，并根据子序列的长度进行采样，得到多个行为事件子序列。

在样本构建模块：

通过计算公式

；

得到正样本和负样本 />。

其中，正样本表示同一行为事件序列的子序列对，负样本表示不同的行为事件序列的子序列对，表示两个不同的行为事件序列，/>，/>表示对行为事件序列/>进行采样得到行为事件序列子序列的过程，/>表示对行为事件序列/>进行采样得到行为事件序列子序列的过程。

为了使行为序列编码器学习到不同账户的行为事件序列的差异，在本申请的实施例中，采用的已识别账户的行为事件序列来源于不同的账户。

在编码模块：

得到行为事件子序列的时序编码。

表示第/>个行为事件的时序编码，/>表示预先设置的时间戳，/>表示特征维度。

通过计算公式，得到行为事件序列的序列特征表示/>。

其中，表示行为事件序列中所有行为事件的多元特征集合，/>表示独热编码，，/>表示时序特征集合，/>。

利用自注意力机制，对序列特征表示进行处理，得到初始序列表示。

其中，自注意力机制在处理序列数据时，会通过计算序列中每个元素与其他元素的相关性（即注意力权重），来生成一个注意力分数加权后的序列表示。具体的，将中的每个元素/>分别乘以查询权重矩阵/>、键权重矩阵/>以及值权重矩阵/>，/>表示行为事件序列的特征表示，得到变换后的查询向量Q、键向量K以及值向量V。接着，计算查询向量和值向量的点积，再用点积除以缩放因子，最后应用归一化函数得到该元素和/>中其它元素之间的注意力权重。

上述过程可表示为：

通过计算公式

得到注意力权重，其中，/>表示/>中第/>个元素与其它元素之间的注意力权重。

然后，根据注意力权重，通过计算公式

得到每个元素对应的特征表示，/>表示相乘，/>表示注意力权重对应的值向量。

假设Transformer有个自注意力头，对应于/>组独立的权重矩阵（查询权重矩阵、键权重矩阵以及值权重矩阵），将应用于输入序列/>中的元素/>，得到/>组Q、K、V向量。对每一组Q、K、V向量应用注意力权重计算公式，得到注意力加权后的序列表示。对每组自注意力机制的输出进行拼接，再经过简单的线性变换得到初始序列表示/>，/>，/>表示线性变换层的权重参数。

通过计算公式

得到行为事件序列的序列表示。/>表示激活函数，/>和/>表示线性层1的权重参数，/>和/>表示线性层2的权重参数。

需要说明的是，在本申请的实施例中，随着超参数的增多和层数的加深，模型收敛的难度也在递增。可用残差连接、Dropout模块、正则化等方法加速训练过程，并提高模型的稳定性和泛化能力。

下面对步骤14（构建用于区分不同账户行为序列表示的行为序列编码器，并利用行为事件序列和多元特征对行为序列编码器进行训练，得到训练后的行为序列编码器）中利用行为事件序列和多元特征对行为序列编码器进行训练，得到训练后的行为序列编码器的过程进行示例性说明。

步骤14.1，利用行为序列编码器，对行为事件序列和多元特征进行处理，得到行为事件序列的序列表示。

步骤14.2，通过计算公式

得到序列表示的损失值。

其中，表示序列对的标签，/>代表序列对属于正例，/>，代表序列对属于负例，/>表示经编码器输出的两序列之间的欧式距离，。对比损失希望正序列对尽可能接近，负序列对尽可能遥远，这样可以增加类间差异，减少类内差异。对于一组序列对，如果是正序列对，损失值等于序列特征之间的距离，因为我们期望正序列对之间的距离为0，任意大于0的损失值都会被保留；如果是负序列对，我们希望序列之间的距离尽可能大，通过人为设定一个距离阈值/>，若两序列之间的距离大于/>，其损失值为0，若两序列之间的距离小于/>，其损失值等于/>减去距离，说明还需继续训练。

步骤14.3，基于损失值，对行为序列编码器进行反向传播，得到训练后的行为序列编码器。

下面对本申请提供的账户识别装置进行示例性说明。

如图4所示，该账户识别装置400包括：

行为分类模块401，用于利用预先配置的行为分类表，对采集的已识别账户的行为记录进行分类，得到行为事件序列；行为事件序列包括多个行为事件和多个行为事件中每个行为事件对应的时间信息；

序列划分模块402，用于根据时间信息和预先设置的时间间隔阈值，对行为事件序列进行切分，得到多个行为序列片段；

特征提取模块403，用于分别针对多个行为序列片段中的每个行为序列片段，提取行为序列片段中每个行为事件的多元特征；多元特征包括类型特征、文本特征以及嵌入特征；

序列编码模块404，用于构建用于区分不同账户行为序列表示的行为序列编码器，并利用行为事件序列和多元特征对行为序列编码器进行训练，得到训练后的行为序列编码器；行为序列编码器包括用于生成行为事件子序列的序列构建模块、用于在行为事件子序列中生成正负样本的样本构建模块以及用于对行为事件子序列进行编码的编码模块，序列构建模块的输出端连接样本构建模块的输入端，样本构建模块的输出端连接编码模块的输入端，序列编码器输入端接收行为事件序列和多元特征，序列编码器输出端输出行为事件序列的序列表示；

识别模型模块405，用于根据训练后的行为序列编码器，构建账户识别模型，并利用预先构建的识别损失函数对账户识别模型进行反向传播，得到最终的账户识别模型；

账户识别模块406，用于利用最终的账户识别模型对待识别账户进行识别。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

如图5所示，本申请的实施例提供了一种终端设备，如图5所示，该实施例的终端设备D10包括：至少一个处理器D100（图5中仅示出一个处理器）、存储器D101以及存储在所述存储器D101中并可在所述至少一个处理器D100上运行的计算机程序D102，所述处理器D100执行所述计算机程序D102时实现上述任意各个方法实施例中的步骤。

具体的，所述处理器D100执行所述计算机程序D102时，利用预先配置的行为分类表，对采集的已识别账户的行为记录进行分类，得到行为事件序列，然后根据时间信息和预先设置的时间间隔阈值，对行为事件序列进行切分，得到多个行为序列片段，再分别针对多个行为序列片段中的每个行为序列片段，提取行为序列片段中每个行为事件的多元特征，随后构建用于区分不同账户行为序列表示的行为序列编码器，并利用行为事件序列和多元特征对行为序列编码器进行训练，得到训练后的行为序列编码器，再根据训练后的行为序列编码器，构建账户识别模型，并利用预先构建的识别损失函数对账户识别模型进行反向传播，得到最终的账户识别模型，最后利用最终的账户识别模型对待识别账户进行识别。其中，通过提取行为事件的多元特征，能够准确的区分不同的行为事件，然后根据多元特征和行为序列编码器区分不同账户行为序列表示，可以准确的获取不同账户对应的行为序列表示，基于准确的行为序列表示，对账户进行识别，能够提高账户识别能力。此外，根据行为分类表能够对账户行为记录进行准确的分类，有助于提高账户识别能力。

所称处理器D100可以是中央处理单元(CPU，Central Processing Unit)，该处理器D100还可以是其他通用处理器、数字信号处理器 (DSP，Digital Signal Processor)、专用集成电路 (ASIC，Application Specific Integrated Circuit)、现成可编程门阵列(FPGA，Field-Programmable Gate Array) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器D101在一些实施例中可以是所述终端设备D10的内部存储单元，例如终端设备D10的硬盘或内存。所述存储器D101在另一些实施例中也可以是所述终端设备D10的外部存储设备，例如所述终端设备D10上配备的插接式硬盘，智能存储卡（SMC，SmartMedia Card ），安全数字（SD，Secure Digital）卡，闪存卡（Flash Card）等。进一步地，所述存储器D101还可以既包括所述终端设备D10的内部存储单元也包括外部存储设备。所述存储器D101用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器D101还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行时实现可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到账户识别装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，RandomAccess Memory）、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/网络设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种账户识别方法，其特征在于，包括：

利用预先配置的行为分类表，对采集的已识别账户的行为记录进行分类，得到行为事件序列；所述行为事件序列包括多个行为事件和所述多个行为事件中每个行为事件对应的时间信息；

根据所述时间信息和预先设置的时间间隔阈值，对所述行为事件序列进行切分，得到多个行为序列片段；

分别针对所述多个行为序列片段中的每个行为序列片段，提取所述行为序列片段中每个行为事件的多元特征；所述多元特征包括类型特征、文本特征以及嵌入特征；

构建用于区分不同账户行为序列表示的行为序列编码器，并利用所述行为事件序列和所述多元特征对所述行为序列编码器进行训练，得到训练后的行为序列编码器；所述行为序列编码器包括用于生成行为事件子序列的序列构建模块、用于在行为事件子序列中生成正负样本的样本构建模块以及用于对行为事件子序列进行编码的编码模块，所述序列构建模块的输出端连接所述样本构建模块的输入端，所述样本构建模块的输出端连接所述编码模块的输入端，所述序列编码器输入端接收所述行为事件序列和所述多元特征，所述序列编码器输出端输出所述行为事件序列的序列表示；

根据所述训练后的行为序列编码器，构建账户识别模型，并利用预先构建的识别损失函数对所述账户识别模型进行反向传播，得到最终的账户识别模型；

利用所述最终的账户识别模型对待识别账户进行识别。

2.根据权利要求1所述的账户识别方法，其特征在于，所述行为分类表包括一级分类、二级分类以及三级分类，所述一级分类表示行为的发生位置，所述二级分类表示在所述发生位置下的行为类型，所述三级分类表示所述行为类型的结果。

3.根据权利要求1所述的账户识别方法，其特征在于，所述根据所述时间信息和预先设置的时间间隔阈值，对所述行为事件序列进行切分，得到多个行为序列片段，包括：

根据所述时间信息，计算所述行为事件序列中所有相邻的两个行为事件之间的时间间隔；

对所述时间间隔大于所述时间间隔阈值的两个行为事件进行切分，得到多个行为序列片段。

4.根据权利要求3所述的账户识别方法，其特征在于，所述分别针对所述多个行为序列片段中的每个行为序列片段，提取所述行为序列片段中每个行为事件的多元特征，包括：

分别针对所述行为序列片段中的每个行为事件，执行步骤i至步骤ii：

步骤i，通过计算公式

得到所述行为事件的类型特征；其中，/>表示所述行为事件片段中第/>个行为事件的类型特征，/>表示独热编码，/>表示第/>个行为事件的行为类型；

步骤ii，获取所述行为事件对应的文本信息，并通过计算公式

得到所述行为事件的文本特征；其中，所述文本信息包括所述行为事件的行为类型、发生位置以及效果，/>表示所述行为事件片段中第/>个行为事件的文本特征，表示第/>个行为事件的文本信息包含的不重复单词数，/>表示所述文本信息中的第/>个单词，/>表示第/>个单词对应的词向量；

步骤iii，将所述行为事件输入Event2vec模型，得到所述行为事件的嵌入特征；

步骤iv，通过计算公式，得到所述多元特征/>；其中，/>表示所述行为事件片段中第/>个行为事件的多元特征。

5.根据权利要求4所述的账户识别方法，其特征在于，在所述序列构建模块，根据所述行为事件序列的长度，确定行为事件子序列的长度，并根据所述子序列的长度进行采样，得到多个行为事件子序列；

在所述样本构建模块，通过计算公式

；

得到正样本和负样本 />；所述正样本表示同一行为事件序列的子序列对，所述负样本表示不同的行为事件序列的子序列对，/>表示两个不同的行为事件序列，/>，/>表示对行为事件序列/>进行采样得到行为事件序列子序列的过程，表示对行为事件序列/>进行采样得到行为事件序列子序列的过程；

在所述编码模块，执行以下步骤：

针对所述多个行为事件子序列中的每个行为事件子序列，通过计算公式

得到所述行为事件子序列的时序编码；/>表示第/>个行为事件的时序编码，/>表示预先设置的时间戳，/>表示特征维度；

通过计算公式，得到所述行为事件序列的序列特征表示/>；/>表示所述行为事件序列中所有行为事件的多元特征集合，/>表示独热编码，/>，/>表示时序特征集合，/>；

利用自注意力机制，对所述序列特征表示进行处理，得到初始序列表示；

通过计算公式

得到所述行为事件序列的序列表示；/>表示激活函数，/>和/>表示线性层1的权重参数，/>和/>表示线性层2的权重参数。

6.根据权利要求5所述的账户识别方法，其特征在于，所述利用所述行为事件序列和所述多元特征对所述行为序列编码器进行训练，得到训练后的行为序列编码器，包括：

利用所述行为序列编码器，对所述行为事件序列和所述多元特征进行处理，得到所述行为事件序列的序列表示；

通过计算公式

得到所述序列表示的损失值；其中，/>是序列对的标签，/>代表序列对属于正例，/>代表序列对属于负例，/>表示经行为序列编码器输出的两个序列表示之间的欧式距离，/>；

基于所述损失值，对所述行为序列编码器进行反向传播，得到所述训练后的行为序列编码器。

7.根据权利要求6所述的账户识别方法，其特征在于，所述账户识别模型包括输入层、嵌入层、编码层以及输出层；所述输入层接收待识别账户的行为事件序列，所述输入层的输出端连接所述嵌入层的输入端，所述嵌入层的输出端连接所述编码层的输入端，所述编码层的输出端连接所述输出层的输入端，所述输出层输出账户识别结果；

所述识别损失函数的表达式如下：

其中，表示识别损失值，/>表示第/>个已识别账户的真实标签，/>，，/>表示所述行为序列识别模型输出的标签是/>的概率，/>表示已识别账户的行为事件序列的总数量，/>表示控制对比学习损失影响的超参数。

8.一种账户识别装置，其特征在于，包括：

行为分类模块，用于利用预先配置的行为分类表，对采集的已识别账户的行为记录进行分类，得到行为事件序列；所述行为事件序列包括多个行为事件和所述多个行为事件中每个行为事件对应的时间信息；

序列划分模块，用于根据所述时间信息和预先设置的时间间隔阈值，对所述行为事件序列进行切分，得到多个行为序列片段；

特征提取模块，用于分别针对所述多个行为序列片段中的每个行为序列片段，提取所述行为序列片段中每个行为事件的多元特征；所述多元特征包括类型特征、文本特征以及嵌入特征；

序列编码模块，用于构建用于区分不同账户行为序列表示的行为序列编码器，并利用所述行为事件序列和所述多元特征对所述行为序列编码器进行训练，得到训练后的行为序列编码器；所述行为序列编码器包括用于生成行为事件子序列的序列构建模块、用于在行为事件子序列中生成正负样本的样本构建模块以及用于对行为事件子序列进行编码的编码模块，所述序列构建模块的输出端连接所述样本构建模块的输入端，所述样本构建模块的输出端连接所述编码模块的输入端，所述序列编码器输入端接收所述行为事件序列和所述多元特征，所述序列编码器输出端输出所述行为事件序列的序列表示；

识别模型模块，用于根据所述训练后的行为序列编码器，构建账户识别模型，并利用预先构建的识别损失函数对所述账户识别模型进行反向传播，得到最终的账户识别模型；

账户识别模块，用于利用所述最终的账户识别模型对待识别账户进行识别。

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的账户识别方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的账户识别方法。