CN111861379A

CN111861379A - 一种聊天数据的检测方法和装置

Info

Publication number: CN111861379A
Application number: CN202010583301.7A
Authority: CN
Inventors: 王�锋; 陈宇; 史忠伟
Original assignee: Wuba Co Ltd
Current assignee: Wuba Co Ltd
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2020-10-30

Abstract

本发明实施例提供了一种聊天数据的检测方法及装置，在获取相应的权限之后，可以获取目标用户的目标聊天数据，然后根据目标聊天数据，生成针对目标用户的用户特征向量，并将该用户特征向量输入预设的目标聊天数据检测模型中，生成针对目标聊天数据的预测值，若该预测值大于或等于预设阈值时，则可以确定目标用户的目标聊天数据为异常聊天数据，通过对用户的聊天数据进行特征提取，并将提取的特征向量输入数据检测模型中进行异常概率预测，可以有效、快速地对用户聊天数据进行检测，并且通过模型预测的方式，大大降低了人工检测的成本。

Description

一种聊天数据的检测方法和装置

技术领域

本发明涉及数据处理技术领域，特别是涉及一种聊天数据的检测方法和一种聊天数据的检测装置。

背景技术

随着互联网技术快速发展，网络通信技术也得到飞速的发展，具有即时通信功能的应用程序能够给用户带来较好的用户体验。然而，出于对用户隐私的保护，在通常情况下无法对用户的聊天记录进行审核，则容易出现一些不良言论，且只有当有用户进行举报之后，应用程序管理方的工作人员才能对所涉及的聊天数据进行人工审核。在对用户聊天记录进行人工审核的过程中，审核效率低下，无法快速高效地对不良言论进行处理。因此，在网络通信技术发展的环境下，需要一种能够更好识别异常聊天数据，优化网络通信环境方式。

发明内容

本发明实施例是提供一种聊天数据的检测方法，以解决现有技术中在对聊天数据进行异常识别时，识别效率低下以及成本高的问题。

相应的，本发明实施例还提供了一种聊天数据的检测装置，用以保证上述方法的实现及应用。

为了解决上述问题，本发明实施例公开了一种聊天数据的检测方法，包括：

获取目标用户的目标聊天数据；

根据所述目标聊天数据，生成针对所述目标用户的用户特征向量；

将所述用户特征向量输入预设的目标聊天数据检测模型中，生成针对所述目标聊天数据的预测值；

当所述预测值大于或等于预设阈值时，则确定所述目标聊天数据为异常聊天数据。

可选地，所述根据所述目标聊天数据，生成针对所述目标用户的用户特征向量，包括：

采用所述目标聊天数据，生成第一图网络结构，所述第一图网络结构中包括多个节点；

按照预设序列长度，对所述多个节点进行随机游走，获得第一节点序列；

将所述第一节点序列输入预设的目标关系表示预测模型中，生成针对所述目标用户的用户特征向量。

可选地，所述目标聊天数据包括所述目标用户的若干条聊天记录，所述采用所述目标聊天数据，生成第一图网络结构，包括：

对所述聊天记录进行分词，生成若干个单词；

将各个所述单词作为节点，建立针对所述目标用户的第一图网络结构。

可选地，所述目标关系表示预测模型通过如下方式生成：

获取历史聊天数据；

采用所述历史聊天数据，生成第二图网络结构；

根据所述第二图网络结构，生成所述目标关系表示预测模型。

可选地，所述第二图网络结构包括多个节点，所述根据所述第二图网络结构，生成所述目标关系表示预测模型，包括：

按照预设序列长度，对所述多个节点进行随机游走，获得第二节点序列；

将所述第二节点序列输入所述初始关系表示预测模型中，生成第一预测值；

将所述第一预测值与第一预设参考值进行比对，并根据比对结构对所述初始关系表示预测模型进行迭代，生成所述目标关系表示预测模型。

可选地，所述目标聊天数据检测模型通过如下方式生成：

根据所述历史聊天数据，生成训练特征向量；

将预设的标签样本与所述训练特征向量输入预设的初始聊天数据检测模型，生成第二预测值；

将所述第二预测值与第二参考值进行比对，并根据比对结果对所述初始聊天数据检测模型进行迭代，生成所述目标聊天数据检测模型。

本发明实施例还公开了一种聊天数据的检测装置，包括：

目标聊天数据获取模块，用于获取目标用户的目标聊天数据；

用户特征向量生成模块，用于根据所述目标聊天数据，生成针对所述目标用户的用户特征向量；

预测值生成模块，用于将所述用户特征向量输入预设的目标聊天数据检测模型中，生成针对所述目标聊天数据的预测值；

聊天数据检测模块，用于当所述预测值大于或等于预设阈值时，则确定所述目标聊天数据为异常聊天数据。

可选地，所述用户特征向量生成模块包括：

第一网络结构生成子模块，用于采用所述目标聊天数据，生成第一图网络结构，所述第一图网络结构中包括多个节点；

第一节点序列获得模块，用于按照预设序列长度，对所述多个节点进行随机游走，获得第一节点序列；

用户特征向量生成子模块，用于将所述第一节点序列输入预设的目标关系表示预测模型中，生成针对所述目标用户的用户特征向量。

可选地，所述目标聊天数据包括所述目标用户的若干条聊天记录，所述第一网络结构生成子模块具体用于：

对所述聊天记录进行分词，生成若干个单词；

可选地，所述目标关系表示预测模型通过如下模块生成：

历史聊天数据获取模块，用于获取历史聊天数据；

第二网络结构生成模块，用于采用所述历史聊天数据，生成第二图网络结构；

关系表示预测模型生成模块，用于根据所述第二图网络结构，生成所述目标关系表示预测模型。

可选地，所述第二图网络结构包括多个节点，所述第二网络结构生成模块具体用于：

可选地，所述目标聊天数据检测模型通过如下模块生成：

训练特征向量生成模块，用于根据所述历史聊天数据，生成训练特征向量；

预测值生成模块，用于将预设的标签样本与所述训练特征向量输入预设的初始聊天数据检测模型，生成第二预测值；

聊天数据检测模型训练模块，用于将所述第二预测值与第二参考值进行比对，并根据比对结果对所述初始聊天数据检测模型进行迭代，生成所述目标聊天数据检测模型。

本发明实施例还公开了一种电子设备，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述电子设备执行如上任一项所述的方法。

本发明实施例还公开了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得所述处理器执行如上项所述的方法。

本发明实施例包括以下优点：

在本发明实施例中，在获取相应的权限之后，可以获取目标用户的目标聊天数据，然后根据目标聊天数据，生成针对目标用户的用户特征向量，并将该用户特征向量输入预设的目标聊天数据检测模型中，生成针对目标聊天数据的预测值，若该预测值大于或等于预设阈值时，则可以确定目标用户的目标聊天数据为异常聊天数据，通过对用户的聊天数据进行特征提取，并将提取的特征向量输入数据检测模型中进行异常概率预测，可以有效、快速地对用户聊天数据进行检测，并且通过模型预测的方式，大大降低了人工检测的成本。

附图说明

图1是本发明的一种聊天数据的检测方法实施例的步骤流程图；

图2是本发明实施例中聊天数据检测的示意图；

图3是本发明的一种聊天数据的检测装置实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图是一种基础且常用的结构，在现实中许多场景可以抽象为一种图结构，例如社交网络、交通网络、电商网络中用户与物品之间的关系等等。图表示学习属于表示学习的范畴，也可以成为网络嵌入、图嵌入、网络表示学习等等。

图表示学习可以包括两个层次的含义：一是将图中的节点表示为低维、实值、稠密的向量形式，使得得到的向量形式可以在向量空间中具有表示以及推理的能力，并且这样的向量还可以用于下游的具体任务中，例如用户社交网络得到的节点表示，即每个用户的表示向量，然后再用于节点分类等；二是将整个图表示低维、实值、稠密的向量形式，用来对整个图结构进行分类等等。其中，图表示学习可以还包括矩阵分解、DeepWalk以及图神经网络等方式。

在网络社交中，用户之间的聊天对话存在多种风险类型，包括消息违规、吸粉、涉黄以及灌水等等，不同的风险类型有不同的人工审核规则和定义。然而，通过人工检测的方式不仅检测的效率低下，而且检测效果差。

因此，本发明实施例的核心构思之一在于基于关系表示学习对用户的聊天数据进行图表示学习，得到针对用户的用户特征向量，然后通过基于用户特征向量的数据检测模型对用户的聊天数据进行灌水概率的预测，从而能够快速、高效地检测出用户聊天数据的异常情况，且降低漏检的概率，提高检测效果。

具体的，参照图1，示出了本发明的一种聊天数据的检测方法实施例的步骤流程图，具体可以包括如下步骤：

步骤101，获取目标用户的目标聊天数据；

作为一种示例，聊天数据可以为网络中不同用户之间聊天对话后产生，例如，在生活类应用程序中，其可以提供找房、找工作等业务，同时支持在线交流，则业务提供方与业务需求方可以通过应用程序进行聊天对话。在该过程中，存在部分用户进行吸粉、涉黄以及聊天灌水等行为，因此需要对应用程序中的聊天会话数据进行检测，以便规范网络社交环境。

需要说明的是，对于用户的聊天数据，可以在得到用户授予的权限后进行获取，也可以是相关用户对目标用户进行举报之后，对目标用户所涉及的聊天数据进行获取。

步骤102，根据所述目标聊天数据，生成针对所述目标用户的用户特征向量；

在本发明实施例中，目标聊天数据可以为目标用户当前的聊天数据，或目标用户中可能异常的聊天数据(例如被其他用户举报的聊天数据)。用户特征向量可以为对目标用户聊天数据进行图表示学习后，获得的针对目标用户的特征向量。

在具体实现中，可以采用目标聊天数据，生成第一图网络结构，第一图网络结构中包括多个节点，接着按照预设序列长度，对多个节点进行随机游走，获得第一节点序列，然后将第一节点序列输入预设的目标关系表示预测模型中，生成针对目标用户的用户特征向量。

具体的，目标聊天数据可以包括目标用户的若干条聊天记录，则可以对每条聊天记录进行分词，得到若干个单词，然后以单词为节点，建立针对目标用户的第一图网络结构。接着可以按照预设的序列长度，对第一图网络结构中的节点进行随机游走，获得第一节点序列，其中，每个节点为一个单词，则节点序列可以为对应的句子。然后通过所获取的节点序列输入关系表示预测模型，从而生成针对目标用户的用户特征向量，通过对用户的聊天数据进行图表示学习，可以得到用户的特征信息，有利于后续对聊天数据进行异常检测。

在本发明的一种可选实施例中，目标关系表示预测模型可以通过如下方式生成：获取历史聊天数据，采用历史聊天数据，生成第二图网络结构，根据第二图网络结构，生成目标关系表示预测模型。

在具体实现中，历史聊天记录可以为数据库中存储的在先经过用户授权后得到的聊天数据，通过历史聊天数据，可以对目标关系表示预测模型进行训练。具体的，可以对历史聊天数据中的每条聊天记录进行分词，并根据分词后的单词建立第二图网络结构，然后按照预设序列长度，对第二图网络结构中各个节点进行随机游走，获得第二节点序列，然后将第二节点序列输入初始关系表示预测模型中，生成第一预测值，并将该第一预测值与预设的第一参考值进行比对，根据比对结果对初始关系表示预测模型进行反向训练，直到比对结果符合预设条件时，结束模型训练，得到目标关系表示预测模型。

其中，对于关系表示预测模型的训练过程可以采用梯度下降原则，通过计算训练过程中的损失函数，当损失函数达到最小或满足设定值时，即可视为训练结束。

在一种示例中，可以通过DeepWalk进行图表示学习，将用户的聊天数据作为句子语料，用一个词预测周围词组成无监督训练的样本对，接着用这些样本来训练一个2层的Word2Vec网络，然后抽出隐层权重作为用户特征向量Embedding，用户特征向量中可以自带节点的相似度信息，从而得到训练特征向量。

具体的，当得到历史聊天数据之后，进行分词，然后根据分词后的各个单词组成图网络结构。在图网络结构中，可以按照节点的连接关系生成节点序列，但如果任意生成序列，则容易导致序列的意义被破坏，得到无法用于后续特征预测的语料，因此，可以以中心词预测周围次的方式，生成样本对，接着以样本训练Node2Vec网络，最终从隐层权重中抽取出Embedding，自带一定的相似度信息。

当得到训练完毕后的目标关系表示预测模型之后，可以将获取的目标用户的目标聊天数据进行处理，得到图网络结构，然后对图网络结构中的节点进行随机游走得到节点序列，并输入目标关系表示预测模型，从而得到针对目标用户的用户特征向量，通过图表示学习不仅能够学习到用户的Embedding表示，有利于后续对聊天数据进行异常检测，而且可以存储至用户的特征数据库中，丰富了特征维度，便于后续进行模型的提升。

需要说明的是，本发明实施例包括但不限于上述示例，可以理解的是，在本发明实施例的思想指导下，本领域技术人员可以根据实际情况进行设置，本发明对此不作限制。

步骤103，将所述用户特征向量输入预设的目标聊天数据检测模型中，生成针对所述目标聊天数据的预测值；

在本发明实施例中，通过图表示学习得到的目标用户的用户特征向量之后，可以将用户特征向量输入目标聊天数据检测模型中，对目标用户的目标聊天数据进行异常预测，进而根据预测值判断目标聊天数据是否为异常数据。

在本发明的一种可选实施例中，目标聊天数据检测模型可以通过如下方式生成：根据历史聊天数据，生成训练特征向量，将预设的标签样本与训练特征向量输入预设的初始聊天数据检测模型，生成第二预测值，接着将第二预测值与第二参考值进行比对，并根据比对结果对初始数据检测模型进行迭代，生成目标聊天数据检测模型。

在具体实现中，标签样本可以为异常聊天数据的聊天类型所对应的样本，例如标签可以包括违规信息、涉黄、灌水等，则不同标签可以对应不同的样本，从而通过标签样本与训练特征向量对初始聊天数据检测模型进行训练，得到目标聊天数据检测模型。

其中，对于聊天数据检测模型的训练过程可以采用梯度下降原则，通过计算训练过程中的损失函数，当损失函数达到最小或满足设定值时，即可视为训练结束。

步骤104，当所述预测值大于或等于预设阈值时，则确定所述目标聊天数据为异常聊天数据。

在具体实现中，通过将用户特征向量输入目标聊天数据检测模型，可以得到针对目标用户的目标聊天数据的预测值，该预测值可以用于表示目标聊天数据的异常概率，若该异常概率大于或等于预设阈值时，即表示目标用户的聊天数据涉嫌违规，可以对其进行处理，例如禁言、账户下线等，从而通过对用户的聊天数据进行特征提取，并将提取的特征向量输入数据检测模型中进行异常概率预测，可以有效、快速地对用户聊天数据进行检测，并且通过模型预测的方式，大大降低了人工检测的成本。

在一种示例中，如图2所示，示出了本发明实施例中聊天数据检测的示意图，在模型训练过程中，通过获取历史聊天关系数据，然后建立graph进行图表示学习，得到用户Embedding，将用户Embedding与标签样本输入到分类器中进行训练，从而得到训练后的分类器。

在聊天数据检测过程中，得到用户的每天聊天关系数据后，建立graph进行图表示学习，得到用户Embedding，将用户Embedding输入到分类器中进行预测，从得到用户聊天数据的灌水概率，进而确定用户的聊天数据是否为异常数据，实现了通过对用户的聊天数据进行特征提取，并将提取的特征向量输入数据检测模型中进行异常概率预测，可以有效、快速地对用户聊天数据进行检测，并且通过模型预测的方式，大大降低了人工检测的成本。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图3，示出了本发明的一种聊天数据的检测装置实施例的结构框图，具体可以包括如下模块：

目标聊天数据获取模块301，用于获取目标用户的目标聊天数据；

用户特征向量生成模块302，用于根据所述目标聊天数据，生成针对所述目标用户的用户特征向量；

预测值生成模块303，用于将所述用户特征向量输入预设的目标聊天数据检测模型中，生成针对所述目标聊天数据的预测值；

聊天数据检测模块304，用于当所述预测值大于或等于预设阈值时，则确定所述目标聊天数据为异常聊天数据。

在本发明的一种可选实施例中，所述用户特征向量生成模块302包括：

在本发明的一种可选实施例中，所述目标聊天数据包括所述目标用户的若干条聊天记录，所述第一网络结构生成子模块具体用于：

对所述聊天记录进行分词，生成若干个单词；

在本发明的一种可选实施例中，所述目标关系表示预测模型通过如下模块生成：

历史聊天数据获取模块，用于获取历史聊天数据；

在本发明的一种可选实施例中，所述第二图网络结构包括多个节点，所述第二网络结构生成模块具体用于：

在本发明的一种可选实施例中，所述目标聊天数据检测模型通过如下模块生成：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例还提供了一种电子设备，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述电子设备执行本发明实施例所述的方法。

本发明实施例还提供了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得所述处理器执行本发明实施例所述的方法。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种聊天数据的检测方法和一种聊天数据的检测装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种聊天数据的检测方法，其特征在于，包括：

获取目标用户的目标聊天数据；

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标聊天数据，生成针对所述目标用户的用户特征向量，包括：

3.根据权利要求2所述的方法，其特征在于，所述目标聊天数据包括所述目标用户的若干条聊天记录，所述采用所述目标聊天数据，生成第一图网络结构，包括：

对所述聊天记录进行分词，生成若干个单词；

4.根据权利要求2所述的方法，其特征在于，所述目标关系表示预测模型通过如下方式生成：

获取历史聊天数据；

采用所述历史聊天数据，生成第二图网络结构；

5.根据权利要求4所述的方法，其特征在于，所述第二图网络结构包括多个节点，所述根据所述第二图网络结构，生成所述目标关系表示预测模型，包括：

6.根据权利要求5所述的方法，其特征在于，所述目标聊天数据检测模型通过如下方式生成：

根据所述历史聊天数据，生成训练特征向量；

7.一种聊天数据的检测装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述用户特征向量生成模块包括：

9.一种电子设备，其特征在于，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述电子设备执行如权利要求1-6任一项所述的方法。

10.一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得所述处理器执行如权利要求1-6任一项所述的方法。