CN113743522A

CN113743522A - 违规行为的检测方法及装置、电子设备

Info

Publication number: CN113743522A
Application number: CN202111068561.1A
Authority: CN
Inventors: 缪孝田; 窦冲; 史忠伟
Original assignee: 58tongcheng Information Technology Co ltd
Current assignee: 58tongcheng Information Technology Co ltd; Beijing 58 Information Technology Co Ltd
Priority date: 2021-09-13
Filing date: 2021-09-13
Publication date: 2021-12-03

Abstract

本发明实施例提供了一种违规行为的检测方法及装置、电子设备。方法包括：在接收到目标账户发送的信息发布请求的情况下，获取与目标账户相关联的多模态数据集合，其中，多模态数据集合包括多个模态下的模态数据；针对多模态数据集合，对每一模态下的模态数据向量化，得到多个数据向量；将多个数据向量输入预先训练好的分类模型中，并基于分类模型的输出确定目标账户是否存在违规行为；其中，分类模型的输出包括：至少两个分类结果以及对应每一分类结果的概率值。本发明在目标账户发布信息的过程中，将与目标账户相关联的多个维度的信息考虑在内，利用各维度信息之间的互补，可以更加准确的判断目标账户是否存在违规行为。

Description

违规行为的检测方法及装置、电子设备

技术领域

本发明涉及数据处理技术领域，尤其涉及一种违规行为的检测方法及装置、电子设备。

背景技术

网络监管是对互联网网络的监督、监管和检查。对于网络平台来说，其本身具有网络监管功能，以避免监管不到位对网络平台造成的损失。

目前，网络平台的监管，通常是指对平台上的用户行为进行监管，检测平台用户是否存在违规行为。这里，在检测平台用户是否存在违规行为时，通常是检测其发布的信息是否违规。以其发布的信息是否违规判断其行为是否违规。这种方式简单直接，得到了大家的广泛应用。

然而，平台用户发布的信息仅为其行为的一种表现，通过其发布的信息虽然可以识别出用户的一些违规行为，但仍存在一些漏洞，从而造成违规行为的检测不够准确。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的违规行为的检测方法及装置、电子设备。

第一方面，本发明实施例提供了一种违规行为的检测方法，所述方法包括：

在接收到目标账户发送的信息发布请求的情况下，获取与所述目标账户相关联的多模态数据集合，其中，所述多模态数据集合包括多个模态下的模态数据；

针对所述多模态数据集合，对每一所述模态下的模态数据向量化，得到多个数据向量；

将所述多个数据向量输入预先训练好的分类模型中，并基于所述分类模型的输出确定所述目标账户是否存在违规行为；其中，所述分类模型的输出包括：至少两个分类结果以及对应每一分类结果的概率值。

可选地，所述多个模态下的模态数据包括：所述目标账户的注册信息、所述目标账户在目标时间段内的行为信息、所述目标账户的社交关系信息、所述信息发布请求对应的待发布信息中的至少两项。

可选地，在所述多个模态下的模态数据包括：所述目标账户的注册信息、所述目标账户在目标时间段内的行为信息、所述目标账户的社交关系信息、所述信息发布请求对应的待发布信息的情况下，所述针对所述多模态数据集合，对每一所述模态下的模态数据向量化，得到多个数据向量，包括：

将所述注册信息输入第一向量化模型中，得到表征第一初步结果的第一数据向量，其中，所述第一初步结果为基于所述注册信息确定的所述目标账户是否存在违规行为的结果；

将所述行为信息输入第二向量化模型中，得到表征第二初步结果的第二数据向量，其中，所述第二初步结果为基于所述行为信息确定的所述目标账户是否存在违规行为的结果；

将所述社交关系信息输入第三向量化模型中，得到表征所述目标账户的社交关系的第三数据向量；

将所述待发布信息输入第四向量化模型中，得到表征所述待发布信息语义的第四数据向量；

将所述第一数据向量、所述第二数据向量、所述第三数据向量以及所述第四数据向量作为所述多个数据向量。

可选地，所述行为信息包括所述目标账户发布信息的时间和次数，所述将所述行为信息输入第二向量化模型中，得到表征第二初步结果的第二数据向量，包括：

将所述行为信息输入所述第二向量化模型中，通过所述第二向量化模型统计所述目标账户发布信息的频率；

通过所述第二向量化模型基于所述目标账户发布信息的频率确定所述第二初步结果；

通过所述第二向量化模型生成对应所述第二初步结果的第二数据向量。

可选地，所述分类模型包括：全连接层、转换(transformer)层以及分类预测层；所述将所述多个数据向量输入预先训练好的分类模型中，并基于所述分类模型的输出确定所述目标账户是否存在违规行为，包括：

将所述多个数据向量输入所述全连接层，得到多个相同长度的中间向量；

将多个所述中间向量输入所述transformer层，得到向量融合数据；

将所述向量融合数据通过所述分类预测层的softmax函数进行分类预测，得到表征所述目标账户存在违规行为第一分类结果、对应所述第一分类结果的第一概率值、表征所述目标账户不存在违规行为第二分类结果以及对应所述第二分类结果的概率值；

在所述第一概率值大于所述第二概率值的情况下，确定所述目标账户存在违规行为。

第二方面，本发明实施例还提供一种违规行为的检测装置，所述装置包括：

获取模块，用于在接收到目标账户发送的信息发布请求的情况下，获取与所述目标账户相关联的多模态数据集合，其中，所述多模态数据集合包括多个模态下的模态数据；

向量化模块，用于针对所述多模态数据集合，对每一所述模态下的模态数据向量化，得到多个数据向量；

分类模块，用于将所述多个数据向量输入预先训练好的分类模型中，并基于所述分类模型的输出确定所述目标账户是否存在违规行为；其中，所述分类模型的输出包括：至少两个分类结果以及对应每一分类结果的概率值。

可选地，在所述多个模态下的模态数据包括：所述目标账户的注册信息、所述目标账户在目标时间段内的行为信息、所述目标账户的社交关系信息、所述信息发布请求对应的待发布信息的情况下，所述向量化模块，包括：

第一向量化单元，用于将所述注册信息输入第一向量化模型中，得到表征第一初步结果的第一数据向量，其中，所述第一初步结果为基于所述注册信息确定的所述目标账户是否存在违规行为的结果；

第二向量化单元，用于将所述行为信息输入第二向量化模型中，得到表征第二初步结果的第二数据向量，其中，所述第二初步结果为基于所述行为信息确定的所述目标账户是否存在违规行为的结果；

第三向量化单元，用于将所述社交关系信息输入第三向量化模型中，得到表征所述目标账户的社交关系的第三数据向量；

第四向量化单元，用于将所述待发布信息输入第四向量化模型中，得到表征所述待发布信息语义的第四数据向量；

确定单元，用于将所述第一数据向量、所述第二数据向量、所述第三数据向量以及所述第四数据向量作为所述多个数据向量。

可选地，所述行为信息包括所述目标账户发布信息的时间和次数，所述第二向量化单元，具体用于将所述行为信息输入所述第二向量化模型中，通过所述第二向量化模型统计所述目标账户发布信息的频率；通过所述第二化向量模型基于所述目标账户发布信息的频率确定所述第二初步结果；通过所述第二向量化模型生成对应所述第二初步结果的第二数据向量。

可选地，所述分类模型包括：全连接层、transformer层以及分类预测层；所述分类模块，包括：

第一模型单元，用于将所述多个数据向量输入所述全连接层，得到多个相同长度的中间向量；

第二模型单元，用于将多个所述中间向量输入所述transformer层，得到向量融合数据；

第三模型单元，用于将所述向量融合数据通过所述分类预测层的softmax函数进行分类预测，得到表征所述目标账户存在违规行为第一分类结果、对应所述第一分类结果的第一概率值、表征所述目标账户不存在违规行为第二分类结果以及对应所述第二分类结果的概率值；

分类单元，用于在所述第一概率值大于所述第二概率值的情况下，确定所述目标账户存在违规行为。

第三方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述违规行为的检测方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如第一方面中所述的违规行为的检测方法的步骤。

在本发明实施例中，在接收到目标账户发送的信息发布请求的情况下，获取与目标账户相关联的多模态数据集合，其中，接收到信息发布请求，说明目标账户正在发布信息，因此需要对目标账户的行为进行检测，确定目标账户是否存在违规行为。这里，获取的多模态数据集合包括多个模态下的模态数据，从而可以得到与目标账户相关联的多个维度的信息。然后针对多模态数据集合，对每一模态下的模态数据向量化，得到多个数据向量。将模态数据处理为机器可以识别并可以直接使用的数据向量。进而将多个数据向量输入预先训练好的分类模型中，并基于分类模型的输出确定目标账户是否存在违规行为；其中，分类模型的输出包括：至少两个分类结果以及对应每一分类结果的概率值。本发明实施例在目标账户发布信息的过程中，将与目标账户相关联的多个维度的信息考虑在内，利用各维度信息之间的互补，提升多模态数据集合中数据的覆盖率，减少对单独考虑一个维度的数据不发生违规但综合考虑多个维度的数据却发生违规的情况的误判，从而可以更加准确的判断目标账户是否存在违规行为。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的违规行为的检测方法的步骤流程图；

图2为本发明实施例中分类模型的数据处理流程图；

图3为本发明实施例提供的违规行为的检测装置的结构框图；

图4为本发明实施例提供的电子设备的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

在本发明的各种实施例中，应理解，下述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

参见图1，本发明实施例提供了一种违规行为的检测方法，应用于服务器，该方法包括：

步骤101：在接收到目标账户发送的信息发布请求的情况下，获取与目标账户相关联的多模态数据集合。

应当说明的是，目标账户为已在服务器上成功注册的任一电子账户。其中，用户通过终端设备上安装的客户端可以访问服务器上存储的数据。举例而言，用户可以通过手机上安装的应用可以访问该应用的后台服务器，其中手机对应终端设备，客户端对应手机上安装的应用，后台服务器对应本发明实施例中的服务器。这样，用户通过终端设备上的客户端可以登录目标账户，并在目标账户下进行操作。

当用户需要发布信息的时候，可以在目标账户下操作客户端，从而向服务器发送信息发布请求。服务器通过接收到的信息发布请求感知客户端的操作。例如，针对一些可以发布信息的平台，用户可以登录目标账户发布招聘信息、房屋出租信息等。用户在安装于终端设备上的客户端上编辑好待发布的信息之后，通过终端设备向服务器发送信息发布请求，同时将待发布的信息发送至服务器，以使服务器感知到用户在客户端上的操作之后，对目标账户的行为进行审核。

多模态数据集合包括多个模态下的模态数据，即多模态数据集合为多个模态下的模态数据组成的集合，其中，每一种信息的来源或者形式，都可以称为一种模态。多个模态下的模态数据即为多个信息来源或多种信息形式的数据。例如，多个模态下的模态数据可以包括文本数据、图像数据、语音数据、视频数据，但不限于此。可以理解的是，多模态数据集合与目标账户相关联，则多模态数据集合中每一模态下的模态数据也与目标账户相关联。这里，不同模态下的模态数据可以理解为与目标账户相关联的不同维度下的数据。多模态数据集合中的数据作为判断是否存在违规行为依据，其通过不同维度数据之间的互补，可以减少因仅单独考虑一个维度数据造成的误判情况。其中仅单独考虑一个维度数据造成的误判情况为现有技术方案存在的一大弊端，例如在用户发布视频文件的场景中，有些时候视频文件的文件内容并未违规，并且视频文件的标题也未违规。但将视频文件的文件内容与标题结合起来就会发现用户存在违规行为。面对这种情况，作为本发明实施例中违规行为的判断依据的多模态数据集合，其包含了视频文件的文件内容以及视频文件的标题，将综合考虑视频文件的文件内容和标题，从而避免上述误判情况的方式。

值得注意的是，本发明所涉及的模态数据为与用户相关联的用户数据，该用户数据包括但不限于用户的设备信息、用户个人信息等，并且该用户数据为经用户授权或经各方授权后的信息。

步骤102：针对多模态数据集合，对每一模态下的模态数据向量化，得到多个数据向量。

应当说明的是，针对每一模态下的模态数据进行向量化，得到一个数据向量。多模态数据集合包括多个模态下的模态数据，因此针对多模态数据集合可以得到多个数据向量，并且每一数据向量对应一模态下的模态数据。其中，模态数据向量化，可以是将模态数据转换为机器可以识别并直接使用的数据向量。较佳地，可以通过预先训练网络模型的方式，预先训练得到用于将每一模态下的模态数据向量化的多个网络模型。

步骤103：将多个数据向量输入预先训练好的分类模型中，并基于分类模型的输出确定目标账户是否存在违规行为。

应当说明的是，分类模型的输出包括：至少两个分类结果以及对应每一分类结果的概率值。可以理解的是，每一分类结果对应的概率值，可以表征得到该分类结果的概率。例如分类结果包括违规和不违规两种分类结果，对应违规的概率值为0.8，对应不违规的概率值为0.2，则可以确定目标账户存在违规行为。

这里，需要采用训练数据训练用于分类的神经网络模型，得到训练好的分类模型。其中训练数据包括真实业务数据；其中真实业务数据为服务器曾经接收到每一信息发布请求时，获取的与发送该信息发布请求的账户相关联的多模态数据集合以及该账户是否存在违规行为的实际结果，这里需要对获取的多模态数据集合中的模态数据向量化，得到训练数据，将训练数据作为神经网络模型的输入。可以理解的是，神经网络模型的训练过程与传统网络模型的训练过程类似，这里不再赘述。但本发明训练过程中所使用的训练数据以及训练的目的与传统网络模型不同。

本发明实施例中，在接收到目标账户发送的信息发布请求的情况下，获取与目标账户相关联的多模态数据集合，其中，接收到信息发布请求，说明目标账户正在发布信息，因此需要对目标账户的行为进行检测，确定目标账户是否存在违规行为。这里，获取的多模态数据集合包括多个模态下的模态数据，从而可以得到与目标账户相关联的多个维度的信息。然后针对多模态数据集合，对每一模态下的模态数据向量化，得到多个数据向量。将模态数据处理为机器可以识别并可以直接使用的数据向量。进而将多个数据向量输入预先训练好的分类模型中，并基于分类模型的输出确定目标账户是否存在违规行为；其中，分类模型的输出包括：至少两个分类结果以及对应每一分类结果的概率值。本发明实施例在目标账户发布信息的过程中，将与目标账户相关联的多个维度的信息考虑在内，利用各维度信息之间的互补，提升多模态数据集合中数据的覆盖率，减少对单独考虑一个维度的数据不发生违规但综合考虑多个维度的数据却发生违规的情况的误判，从而可以更加准确的判断目标账户是否存在违规行为。

可选地，多个模态下的模态数据包括：目标账户的注册信息、目标账户在目标时间段内的行为信息、目标账户的社交关系信息、信息发布请求对应的待发布信息中的至少两项。

应当说明的是，目标账户的注册信息为注册目标账户时填写的信息。例如，对于一招聘平台，目标账户为发布招聘信息的企业账户，则注册信息包括该企业的相关信息、该企业中某一员工(例如人力资源部门员工)的相关信息等。其中，员工的相关信息可以包括员工的姓名、年龄等。行为信息包括目标账户进行登录、退出登录、发布信息、浏览平台信息等行为时产生的用于记录用户行为的信息。目标时间段可以为接收到信息发布请求前的任意时间段。这里，可以预先设定一目标时长，在接收到信息发布请求时，以接收时间为时间终点，向前推一个目标时长，得到时间起点，将时间起点和时间终端之间的时间段作为目标时间段。其中目标时长可以为任意时长，例如目标时长为10个小时，接收到信息发布请求的时间为2021年8月8日22：00，则目标时间段为2021年8月8日12：00～2021年8月8日22：00。社交关系信息为与目标账户的社交关系相关联的信息，例如目标账户所授权的社交应用的信息，目标账户在社交应用中的信息等。信息发布请求对应的待发布信息，可以理解为终端设备通过信息发布请求请求服务器发布的信息。例如在终端设备上编辑招聘信息之后，通过向服务器发送信息发布请求，请求服务器发布该招聘信息，则招聘信息即为信息发布请求对应的待发布信息。

可以理解的是，目标账户的注册信息、目标账户在目标时间段内的行为信息、目标账户的社交关系信息、信息发布请求对应的待发布信息为与目标账户相关联的不同维度的信息，其均可以作为衡量目标账户是否存在违规行为的依据。这里，多模态下的模态数据包括以上至少两项，较佳地，可以包括以上四项。

本发明实施例中，可以将目标账户的注册信息、目标账户在目标时间段内的行为信息、目标账户的社交关系信息、信息发布请求对应的待发布信息中的至少两项作为衡量目标账户是否存在违规行为的依据，利用不同维度信息之间的互补，可以更加准确的判断目标账户是否存在违规行为。

可选地，在多个模态下的模态数据包括：目标账户的注册信息、目标账户在目标时间段内的行为信息、目标账户的社交关系信息、信息发布请求对应的待发布信息的情况下，针对多模态数据集合，对每一模态下的模态数据向量化，得到多个数据向量，包括：

将注册信息输入第一向量化模型中，得到表征第一初步结果的第一数据向量，其中，第一初步结果为基于注册信息确定的目标账户是否存在违规行为的结果。

应当说明的是，注册信息可以理解为目标账户的基本信息，例如姓名、年龄、性别等。在一些场景下，目标账户的注册信息可以在一定程度上表征目标账户的行为是否违规。例如通过大数据统计得到某一年龄下的某一性别常发生违规行为。这里，在将注册信息与其他模态下的模态数据综合考量时，为简化计算过程，可以先针对注册信息生成一初步判断目标账户是否违规的判断结果，使用判断结果与其他模态下的模态数据相结合。第一向量化模型为预先训练好的网络模型，通过训练学习，使得第一向量化模型可以基于目标账户的注册信息，生成表征第一初步结果的第一数据向量。

将行为信息输入第二向量化模型中，得到表征第二初步结果的第二数据向量，其中，第二初步结果为基于行为信息确定的目标账户是否存在违规行为的结果。

应当说明的是，在一些场景下，目标账户的行为信息可以在一定程度上表征目标账户的行为是否违规。例如通过大数据统计得到某一发布信息的频率特别高的账户常发生违规行为。这里，在将行为信息与其他模态下的模态数据综合考量时，为简化计算过程，可以先针对行为信息生成一初步判断目标账户是否违规的判断结果，使用判断结果与其他模态下的模态数据相结合。第二向量化模型为预先训练好的网络模型，通过训练学习，使得第二向量化模型可以基于目标账户的行为信息，生成表征第二初步结果的第二数据向量。

将社交关系信息输入第三向量化模型中，得到表征目标账户的社交关系的第三数据向量。

应当说明的是，社交关系信息可以为一携带有社交关系的图像数据，第三数据向量可以表征图像数据中的社交关系。具体的，第三向量化模型为预先训练好的网络模型，通过训练学习，使得第三向量化模型可以基于目标账户的社交关系信息，生成表征目标账户的社交关系的第三数据向量。

将待发布信息输入第四向量化模型中，得到表征待发布信息语义的第四数据向量。

应当说明的是，第四向量化模型为预先训练好的网络模型，通过训练学习，使得第四向量化模型可以基于目标账户的待发布信息，生成表征待发布信息语义的第四数据向量。

将第一数据向量、第二数据向量、第三数据向量以及第四数据向量作为多个数据向量。

本发明实施例中，采用不同的向量化模型分别对每一模态下的模态数据进行向量化，可以简化训练向量化模型的复杂程度；同时避免在向量化过程中各模态数据之间的相互影响。

可选地，行为信息包括目标账户发布信息的时间和次数，将行为信息输入第二向量化模型中，得到表征第二初步结果的第二数据向量，包括：

将行为信息输入第二向量化模型中，通过第二向量化模型统计目标账户发布信息的频率。

应当说明的是，发布信息的频率为在固定时长内发布信息的次数。例如目标账户在2021年8月8日发布了两次信息，在2021年8月9日发布了三次信息、2021年8月10日发布了四次信息，2021年8月11日发布了七次次信息，则发布信息的频率包括：在2021年8月8日～2021年8月11日平均每天发布四次信息、在2021年8月8日～2021年8月10日平均每天发布三次信息。

通过第二向量化模型基于目标账户发布信息的频率确定第二初步结果。

通过第二向量化模型生成对应第二初步结果的第二数据向量。

本发明实施例中，基于目标账户发布信息的时间和次数统计目标账户发布信息的频率，进而根据目标账户发布信息的频率确定第二初步结果。

可选地，分类模型包括：全连接层、transformer层以及分类预测层；将多个数据向量输入预先训练好的分类模型中，并基于分类模型的输出确定目标账户是否存在违规行为，包括：

将多个数据向量输入全连接层，得到多个相同长度的中间向量。

应当说明的是，将每一数据向量分别输入不同的全连接层，其中，所有的全连接层均输出固定长度的向量，并且不同全连接层对应的固定长度均相等。这里，通过全连接层可以将多个数据向量映射为等长的向量，从而方便后续处理。

将多个中间向量输入transformer层，得到向量融合数据。

应当说明的是，transformer层采用多层设计，包括多个编码器和解码器。每一中间向量作为transformer层的一个输入，transformer层对所有输入进行数据融合得到向量融合数据。

将向量融合数据通过分类预测层的softmax函数进行分类预测，得到表征目标账户存在违规行为第一分类结果、对应第一分类结果的第一概率值、表征目标账户不存在违规行为第二分类结果以及对应第二分类结果的概率值；

在第一概率值大于第二概率值的情况下，确定目标账户存在违规行为。

应得的说明的是，在第一概率值小于第二概率值的情况下，确定目标账户不存在违规行为。

如图2所示，为本发明实施例提供的分类模型的数据处理流程图，其中，文本向量即为上述第四数据向量，具体的，可以使用自监督的方法对待发布信息做向量化。行为计数即为上述第二数据向量，具体的，可以使用计数特征或one-hot(独热)编码等方式对行为信息做向量化。图向量即为上述第三数据向量，具体的，可以使用图向量化技术做向量化。固有属性即为上述第一数据向量，具体的，可以使用计数特征或one-hot(独热)编码等方式对注册做向量化。图2中的全连接层1～全连接层4分别对文本向量、行为计数、图向量、固有属性进行处理，分别得到长度相等的四个中间向量：Token1、Token2、Token3、Token4。在将四个中间向量输入转换层之后，利用分类预测层的softmax函数实现分类预测。

本发明实施例中，将多个向量数据作为分类模型的输入，通过分类模型的全连接层、transformer层以及分类预测层的处理，可以准确确定目标账户是否存在违规行为。

以上介绍了本发明实施例提供的违规行为的检测方法，下面将结合附图介绍本发明实施例提供的违规行为的检测装置。

参见图3，本发明实施例还提供了一种违规行为的检测装置，该装置包括：

获取模块31，用于在接收到目标账户发送的信息发布请求的情况下，获取与目标账户相关联的多模态数据集合，其中，多模态数据集合包括多个模态下的模态数据；

向量化模块32，用于针对多模态数据集合，对每一模态下的模态数据向量化，得到多个数据向量；

分类模块33，用于将多个数据向量输入预先训练好的分类模型中，并基于分类模型的输出确定目标账户是否存在违规行为；其中，分类模型的输出包括：至少两个分类结果以及对应每一分类结果的概率值。

可选地，在多个模态下的模态数据包括：目标账户的注册信息、目标账户在目标时间段内的行为信息、目标账户的社交关系信息、信息发布请求对应的待发布信息的情况下，向量化模块32，包括：

第一向量化单元，用于将注册信息输入第一向量化模型中，得到表征第一初步结果的第一数据向量，其中，第一初步结果为基于注册信息确定的目标账户是否存在违规行为的结果；

第二向量化单元，用于将行为信息输入第二向量化模型中，得到表征第二初步结果的第二数据向量，其中，第二初步结果为基于行为信息确定的目标账户是否存在违规行为的结果；

第三向量化单元，用于将社交关系信息输入第三向量化模型中，得到表征目标账户的社交关系的第三数据向量；

第四向量化单元，用于将待发布信息输入第四向量化模型中，得到表征待发布信息语义的第四数据向量；

确定单元，用于将第一数据向量、第二数据向量、第三数据向量以及第四数据向量作为多个数据向量。

可选地，行为信息包括目标账户发布信息的时间和次数，第二向量化单元，具体用于将行为信息输入第二向量化模型中，通过第二向量化模型统计目标账户发布信息的频率；通过第二向量化模型基于目标账户发布信息的频率确定第二初步结果；通过第二向量化模型生成对应第二初步结果的第二数据向量。

可选地，分类模型包括：全连接层、transformer层以及分类预测层；分类模块33，包括：

第一模型单元，用于将多个数据向量输入全连接层，得到多个相同长度的中间向量；

第二模型单元，用于将多个中间向量输入transformer层，得到向量融合数据；

第三模型单元，用于将向量融合数据通过分类预测层的softmax函数进行分类预测，得到表征目标账户存在违规行为第一分类结果、对应第一分类结果的第一概率值、表征目标账户不存在违规行为第二分类结果以及对应第二分类结果的概率值；

分类单元，用于在第一概率值大于第二概率值的情况下，确定目标账户存在违规行为。

本发明实施例提供的违规行为的检测装置能够实现图1至图2的方法实施例中违规行为的检测方法实现的各个过程，为避免重复，这里不再赘述。

本发明的实施例中，在接收到目标账户发送的信息发布请求的情况下，获取与目标账户相关联的多模态数据集合，其中，接收到信息发布请求，说明目标账户正在发布信息，因此需要对目标账户的行为进行检测，确定目标账户是否存在违规行为。这里，获取的多模态数据集合包括多个模态下的模态数据，从而可以得到与目标账户相关联的多个维度的信息。然后针对多模态数据集合，对每一模态下的模态数据向量化，得到多个数据向量。将模态数据处理为机器可以识别并可以直接使用的数据向量。进而将多个数据向量输入预先训练好的分类模型中，并基于分类模型的输出确定目标账户是否存在违规行为；其中，分类模型的输出包括：至少两个分类结果以及对应每一分类结果的概率值。本发明实施例在目标账户发布信息的过程中，将与目标账户相关联的多个维度的信息考虑在内，利用各维度信息之间的互补，提升多模态数据集合中数据的覆盖率，减少对单独考虑一个维度的数据不发生违规但综合考虑多个维度的数据却发生违规的情况的误判，从而可以更加准确的判断目标账户是否存在违规行为。

另一方面，本发明实施例还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

举个例子如下，图4示出了一种电子设备的实体结构示意图。

如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行如下方法：

在接收到目标账户发送的信息发布请求的情况下，获取与目标账户相关联的多模态数据集合，其中，多模态数据集合包括多个模态下的模态数据；

针对多模态数据集合，对每一模态下的模态数据向量化，得到多个数据向量；

将多个数据向量输入预先训练好的分类模型中，并基于分类模型的输出确定目标账户是否存在违规行为；其中，分类模型的输出包括：至少两个分类结果以及对应每一分类结果的概率值。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

再一方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的违规行为的检测方法，例如包括：

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种违规行为的检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述多个模态下的模态数据包括：所述目标账户的注册信息、所述目标账户在目标时间段内的行为信息、所述目标账户的社交关系信息、所述信息发布请求对应的待发布信息中的至少两项。

3.根据权利要求2所述的方法，其特征在于，在所述多个模态下的模态数据包括：所述目标账户的注册信息、所述目标账户在目标时间段内的行为信息、所述目标账户的社交关系信息、所述信息发布请求对应的待发布信息的情况下，所述针对所述多模态数据集合，对每一所述模态下的模态数据向量化，得到多个数据向量，包括：

4.根据权利要求3所述的方法，其特征在于，所述行为信息包括所述目标账户发布信息的时间和次数，所述将所述行为信息输入第二向量化模型中，得到表征第二初步结果的第二数据向量，包括：

5.根据权利要求1所述的方法，其特征在于，所述分类模型包括：全连接层、转换transformer层以及分类预测层；所述将所述多个数据向量输入预先训练好的分类模型中，并基于所述分类模型的输出确定所述目标账户是否存在违规行为，包括：

6.一种违规行为的检测装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述多个模态下的模态数据包括：所述目标账户的注册信息、所述目标账户在目标时间段内的行为信息、所述目标账户的社交关系信息、所述信息发布请求对应的待发布信息中的至少两项。

8.根据权利要求7所述的装置，其特征在于，在所述多个模态下的模态数据包括：所述目标账户的注册信息、所述目标账户在目标时间段内的行为信息、所述目标账户的社交关系信息、所述信息发布请求对应的待发布信息的情况下，所述向量化模块，包括：

9.根据权利要求8所述的装置，其特征在于，所述行为信息包括所述目标账户发布信息的时间和次数，所述第二向量化单元，具体用于将所述行为信息输入所述第二向量化模型中，通过所述第二向量化模型统计所述目标账户发布信息的频率；通过所述第二向量化模型基于所述目标账户发布信息的频率确定所述第二初步结果；通过所述第二向量化模型生成对应所述第二初步结果的第二数据向量。

10.根据权利要求6所述的装置，其特征在于，所述分类模型包括：全连接层、转换transformer层以及分类预测层；所述分类模块，包括：

11.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现如权利要求1-5中任意一项所述的违规行为的检测方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1-5中任意一项所述的违规行为的检测方法的步骤。